[기고] ChatGPT 챗봇 목적과 한계: 정보 제공과 할루시네이션 문제 사이에서 균형 찾아라

할루시네이션(Hallucination)은 챗GPT와 같은 생성AI 모델이 부적절하거나 허위 정보를 생성하는 현상을 말한다. 이는 모델의 훈련 데이터나 문맥 이해의 한계로 인해 발생할 수 있다. 모델은 대용량의 데이터를 학습하여 응답을 생성하는데, 이러한 데이터에는 잘못된 정보나 모호한 문장이 포함될 수 있으며 입력된 문장의 문맥을 파악하려는 노력보다 답변을 선택하는데 더 집중할 수 있다. 이로 인해 실제로는 존재할 수 없는 사실이나 현상을 포함해서 답하는 것이 할루시네이션 문제다. 한동안 유행했던 예를 들어보면 "세종대왕이 집현전 학사들에게 화가 나서 맥북을 던졌다"라는 식의 사실이 아닌 이야기를 지어내 응답하는 식이다.

최근 많은 사람들이 할루시네이션의 위험성과 문제점에 대한 지적을 하고 있다. 이는 분명 적절한 것임에 동의한다. 다만 그 본질에 대한 이해가 부족한 상태에서 피상적으로 지적만 한다면 대책과 실용적인 활용 접근방법을 마련할 수 없을 것이다. 여기서 주의해야 할 대목은 근본적으로 챗봇과 생성AI는 사용자와 자연스럽게 대화하며 정보를 제공하는 것을 목적으로 개발되었다는 점이다. 그 때문에 할루시네이션 문제에 지나치게 집착하는 것은 챗봇의 한계와 목적을 이해하지 못한 결과라고도 할 수 있다.

또 때로는 전혀 말이 되지 않는 이야기도 하지만 늘 그런 것은 아니라는 점에 대해서도 주목해야 한다. 앞서 예로 들었던 "세종대왕 맥북 투척 사건"에 대해 "세종대왕은 왜 맥북을 던졌는가"라고 챗GPT에게 물어보았다. 이번에 챗GPT의 답은 추측이나 허구로 여겨진다는 것이다.

세종대왕 맥북 투척 사건에 대한 챗GPT(3.5)의 응답 — 세종대왕 맥북 투척 사건에 대한 챗GPT-4의 응답

기업용 활용에서 또는 공공분야에서는 할루시네이션이 활용가치를 저해할 매우 위험한 요소가 되며 그 때문에 할루시네이션을 최소화하고자 노력들을 하고 있다. 그러나 할루시네이션 문제를 최소화하려는 노력은 응답 다양성의 감소, 문맥 이해 한계, 신속한 응답 지연, 도메인 제한 등의 trade-off를 야기할 수 있다. 모델을 보수적으로 조정하거나 제한하여 더 정확한 답변을 제공하려 한다면 응답의 다양성과 창의성이 감소하고 문맥 이해 능력도 제한될 수 있다.

예를 들어, 기업 마케팅에서 챗봇을 활용하는 경우를 생각해보자. 챗봇은 고객과 상호작용하여 제품 정보를 제공하고 문의사항에 대답하는 역할을 한다. 할루시네이션 문제에 대한 지나친 집착으로 인해 모델을 너무 보수적으로 조정하면 정확성은 높아질 수 있지만, 답변의 다양성이 감소하여 고객들의 흥미를 잃을 수 있다. 예를 들어, 모든 질문에 항상 일관된 답변만 제공되는 경우, 고객은 대화의 반복성과 지루함을 느낄 수 있다.

또한, 품질관리에서도 할루시네이션 문제와 관련된 예시를 생각해볼 수 있다. 품질관리팀은 고객들의 질문이나 불만사항에 대응하기 위해 챗봇을 활용할 수 있다. 하지만 너무 신속한 응답을 요구하면서 모델을 보수적으로 조정하면, 모든 응답에 추가적인 검증이나 정보 확인 과정이 필요해지게 된다. 이는 실시간 대화에서의 응답 지연을 초래할 수 있으며, 고객의 불만을 더욱 크게 일으킬 수 있다. 따라서, 품질관리팀은 응답 속도와 정확성을 균형있게 고려하여 챗봇을 실용적 수준으로 튜닝해야 한다. 물론 그 튜닝도 문제와 적용분야에 따라 각기 다른 수준과 내용으로 이루어져야 한다.

AI챗봇의 목적은 사용자와 자연스럽게 대화하며 유용한 정보를 제공하는 것이다. ChatGPT는 인간과 대화하는 경험을 흉내내기 위해 설계된 것이다. 실제 대화에서도 사람들은 가끔씩 틀린 정보를 주고받을 수 있으며, 피드백과 추가 질문을 통해 정확성을 조정하고 해결한다. 마찬가지로 ChatGPT도 사용자의 피드백과 추가 정보를 활용하여 응답을 개선할 수 있다. 맹목적으로 할루시네이션 문제에 지나치게 집착하는 것보다는 적절한 균형을 찾는 것이 중요하다. 언어모델의 한계를 이해하고 신뢰성과 사용자 경험을 상황에 따라 유연하게 최적화하는 방향으로 개발 및 운영해야 한다. 정확성과 다양성, 신속성과 문맥 이해, 도메인 제한과 대화의 유연성 사이의 균형을 잘 조절해야 한다.

최근 몇몇 국내 기업들이 할루시네이션 문제를 완벽하게 해결했다는 식의 지나치게 과장된 주장을 담은 보도 기사들을 내고 있다. 그러나 자세히 들여다 보면 할루시네이션 문제를 개선하기 위해 답변의 근거로 사용되는 원문 데이터 출처를 함께 제시하여 신뢰성을 높였다는 식의 주장은 챗봇이 사용자에게 잘못된 정보를 제공하는 경우를 줄이고 신뢰성을 강화하기 위한 시도로 인정할 수 있지만, 구조적인 한계와 제약을 함께 가지고 있다.

우선 출처 정보를 제공하면서도 챗봇이 실제로 그 정보를 올바르게 이해하고 해석할 수 있는 능력이 필요하지만 쉬운 일이 아니다. 또 모델의 정확성과 업데이트된 데이터의 중요성을 강조하지만, 이를 유지하기 위해서는 지속적인 모델 갱신과 데이터 업데이트가 필요하다. 그리고, 출처 정보가 부정확하거나 오래된 정보를 기반으로 응답한다면 여전히 잘못된 답변이 제공될 수 있는 것이다. 또한, 출처 정보를 제공하는 것은 일부 사용자에게는 유용하지만, 다른 사용자에게는 지루하거나 방해가 될 수도 있다. 출처 정보를 표기하는 방식은 사용자 경험과 효율성 사이의 균형을 고려해야 한다.

챗GPT에 대한 대중과 기업의 기대치가 매우 큰 상황에서 지나치게 과장한 보도들이 퍼져가는 것은 조금만 시간이 지나면 결국 사용자들의 큰 실망감으로 되돌아올 것이다. 이는 단지 특정 기업 몇 곳의 문제를 넘어서 인공지능 기술에 대한 전반적인 신뢰를 하락시키며, 진정한 발전과 혁신이 일어났을 때 조차 이를 인식하는 능력을 약화킬 수 있을 것이다.

필자는 이와 같은 챗GPT의 실체와 그에 따른 활용방안을 “ChatGPT 기반 엔터프라이즈 혁신 전략 컨퍼런스”에서 비즈니스 실전에서의 프롬프트 엔지니어링 전략이라는 주제로 좀 더 깊이 설명할 예정이다.

한편, 본지 아이티비즈와 리비젼컨설팅이 함께 개최하는 ‘ChatGPT 기반 엔터프라이즈 혁신 전략 컨퍼런스”는 2023년 6월 27일과 28일 강남에서 개최된다.