제가 인공지능 관련해 이것 저것 물어보시는 분들께 늘 말하는게 "인공지능 = LLM이 아니며, LLM이 만능은 아니다."입니다. 하지만 별 관심은 없는 것 같습니다. 마케팅 분야에서 LLM을 찍었고 현재 가장 핫한 분야는 LLM이 맞기에 사실 힘없는 외침이긴 했는데 구글 검색 생성 결과 오류 사건이 발생하면서 개인적으로 약간의 과장된 기대감이 빠지고 생각을 해볼 수 있는 부분이 생겼다고 생각합니다.
최근 Google의 새로운 AI 기반 검색 기능인 "AI Overviews"가 잘못된 정보를 제공하면서 큰 논란이 일었습니다. 이를 두고 많은 사람들은 Google 검색 제국의 몰락을 예고하며 자극적인 논평을 쏟아내고 있습니다.
그러나 이 사건의 본질적인 원인을 파악하고, 유사한 오류가 다른 AI 시스템에서도 발생할 수 있는 이유를 이해하는 것이 중요합니다. 우리가 좀 더 생산적으로 이야기 하는 방법은 단순히 비난 하는 것이 아니라 Google AI 검색 오류의 원인을 살펴보고, OpenAI, Grok, LLaMA 등 다른 AI 시스템에서도 같은 문제가 발생할 수 있다는 걸 알고 대비하는 것이라 생각합니다.
실제로 레딧 등에선 Grok과 LLaMA에서 비슷한 류의 대답을 의도적으로 유도하는 방식이 성공했다는 글이 올라옵니다. (이것은 단순한 타 모델 흠집내기가 아닌 "생성"모델이 극복해야하는 문제라는 것이 핵심입니다.)
1. 대형 언어 모델(LLM)의 태생적 한계
대형 언어 모델은 웹상의 방대한 데이터를 학습하여 텍스트를 생성합니다. 문맥적으로 자연스러운 답변을 만들어내는 데는 뛰어나지만, 다음과 같은 근본적인 한계를 안고 있습니다.
•
훈련 데이터의 편향성: LLM은 인터넷의 공개 데이터로 학습합니다. 그런데 인터넷에는 믿을 만한 정보도 있지만 그릇된 정보도 많습니다. 이로 인해 모델이 부정확한 내용을 학습할 수밖에 없고, 결국 잘못된 답변을 내놓을 가능성이 커집니다.
•
맥락 이해의 부족: LLM은 단어와 문장 사이의 통계적 관계에 기반해 작동하므로, 인간처럼 깊이 있는 이해를 하기 어렵습니다. 이는 종종 문맥을 오해하거나 잘못된 결론에 이르게 만듭니다.
2. 환각(Hallucination) 현상
AI 분야에서는 LLM이 잘못된 정보를 생성하는 현상을 "환각"이라고 부릅니다. 환각은 LLM이 문맥에 맞지 않는 엉뚱한 내용을 만들어내거나, 사실과 다른 정보를 제시할 때 나타납니다.
•
잘못된 토큰 예측: LLM은 다음에 등장할 가능성이 높은 토큰을 예측하며 텍스트를 생성합니다. 하지만 이 과정에서 부적절한 토큰이 선택되면, 황당한 내용이 튀어나올 수 있습니다.
•
그릇된 정보의 학습: LLM은 훈련 데이터에 포함된 잘못된 정보마저 있는 그대로 받아들입니다. 가령, 인터넷 농담이나 사실무근한 글을 진실로 받아들일 수 있습니다.
3. Retrieval-Augmented Generation(RAG)의 한계
RAG는 LLM의 정확도를 높이기 위해 제안된 방법입니다. 먼저 관련 문서를 검색한 뒤, 이를 토대로 텍스트를 생성하는 방식입니다. 최근 정확성을 높이기 위한 방법으로 많이 언급되는 방법이나 기존 검색 연산에서 존재하던 방법론이긴 합니다. 어찌보면 이미 검증된 방법이라 효과는 확실합니다만 이 방법에도 한계가 있습니다.
•
부적절한 문서 검색: RAG는 웹상의 방대한 데이터를 기반으로 문서를 찾습니다. 이때 부정확한 정보가 담긴 문서가 검색될 수 있고, 이는 다시 잘못된 답변으로 이어집니다.
•
맥락 해석의 오류: LLM은 검색된 문서를 바탕으로 텍스트를 만들어내지만, 여전히 문서의 맥락을 잘못 파악할 수 있습니다.
Google AI 검색 오류 사례
Google의 AI Overviews 기능은 LLM의 이러한 한계를 여실히 보여주었습니다. AI Overviews는 사용자 질문에 직접 답하려 하지만, 부정확하거나 잘못된 정보를 내놓는 경우가 많았습니다. 이는 다음과 같은 문제로 이어집니다. 지금 인터넷 등에서 퍼지고 있는 오류는 크게 두가지 입니다. (위의 스크린샷)
•
피자에 접착제를 바르라는 제안
피자에 치즈를 잘 붙이기 위해 접착제를 사용하라는 잘못된 정보를 제공
•
돌을 먹으라는 권장
작은 돌을 매일 먹으라는 잘못된 건강 조언을 제공한 경우
Google의 AI 검색 오류는 예외적인 사례가 아닙니다. OpenAI의 ChatGPT, Grok, LLaMA, Claude 등 다른 AI 시스템도 비슷한 문제에 직면할 수 있습니다. 결국 이는 LLM 기술 자체의 본질적 한계에서 비롯된 것입니다. 구글은 이걸 서비스에 녹이는 과정에서 드러나 버린거죠. (어찌보면 TDD였다고 할 수 있겠지만) 이미 chatGPT의 세종대왕 맥북 던짐 사건 같은 류는 계속 있어 왔습니다.
Google AI 검색의 오류는 LLM의 태생적 한계와 훈련 데이터의 문제에서 기인합니다. 이런 문제는 Google뿐 아니라 OpenAI, Grok, LLaMA 등 여러 AI 시스템에서 공통적으로 발생할 수 있습니다. 해법을 찾기 위해서는 양질의 훈련 데이터 확보와 맥락 이해 능력이 향상된 모델 개발이 필요할 것입니다. 아울러 RAG 같은 기술을 활용해 정보의 정확도를 높이는 방안도 모색해 볼 만합니다. 사실 이번 사건은 위에서도 말했듯 RAG 방식에서 참조로 걸린 문서 자체가 문제인 경우 입니다.
중요한 것은 이 문제를 단순히 비난하는 데 그치지 않고, 근본 원인을 파악하여 개선책을 강구하는 일입니다. 그래야만 한층 진일보한 AI 검색 기능을 선보일 수 있을 것입니다. (꼭 구글이 아니더라도) 우리는 여기서 몇가지 생각을 더 해볼 수 있습니다. 앞으로 검증된 정보를 기반으로 RAG를 하는 방식이 더 중요해지겠구나. 전처리와 검증된 정보를 제공하는 곳은 어디인가? 같은 것을 말이죠.
Subscribe to 'haebom'
Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to 'haebom'!
Subscribe
3
차
차진희
항상 좋은 글 잘 보고 있습니다. 더 생산적으로 이야기하는 방식이 필요하다는 말씀에 너무 공감합니다 :) 좋은 하루 보내세요. ㅎㅎ