[논문 리뷰] LLM은 정답을 알면서도 거짓말한다? 할루시네이션의 내부 메커니즘 분석
논문: LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations 저자: Google Research & Apple (2024년 10월)https://arxiv.org/pdf/2410.02707 코드: https://github.com/technion-cs-nlp/LLMsKnow 원문: https://arxiv.org/pdf/2410.02707코드: https://github.com/technion-cs-nlp/LLMsKnow 코드: https://github.com/technion-cs-nlp/LLMsKnow 1. 들어가며 대규모 언어 모델(LLM)의 할루시네이션(Hallucination)은 현재 AI 시스템의 가장 중요한 과제 중 하나입니다. ChatGPT나 Claude와 같은 모델이 사실과 다른 정보를 마치 사실인 것처럼 생성하는 현상은 단순한 오류를 넘어 신뢰성 문제로 이어집니다. 그동안 우리는 LLM이 할루시네이션을 보이는 이유를 "충분한 지식이 없어서" 혹은 "학습 데이터가 부족해서"라고 생각해 왔습니다. 하지만 최근 Google Research와 Apple의 공동 연구는 이러한 통념을 뒤집는 놀라운 발견을 제시합니다. LLM은 정답을 내부적으로 알고 있으면서도 틀린 답변을 생성한다는 것입니다. 이 논문은 LLM의 내부 표현(internal representation)을 분석하여 할루시네이션의 본질을 이해하고자 한 획기적인 연구입니다. 기존의 블랙박스 접근법에서 벗어나 모델의 내부 메커니즘을 직접 들여다봄으로써, 할루시네이션 문제 해결의 새로운 방향을 제시하고 있습니다. 2. 연구의 핵심 질문과 방법론 2.1 기존 접근법의 한계 그동안 할루시네이션 탐지를 위해 시도된 방법들은 주로 외부적 관찰에 의존했습니다. 확률 기반 접근 모델이 생성하는 각 토큰의 확률값을 측정 낮은 확률 = 불확실성으로 해석 한계: 모델이 틀린 답을 매우 자신감 있게 말하는 경우 탐지 불가 반복 질문 방법 (Self-Consistency) 동일한 질문을 여러 번 해서 답변의 일관성 확인 한계: 계산 비용이 높고, 일관되게 틀린 답을 하는 경우 탐지 불가 자체 검증 방법 모델에게 "방금 답변이 맞나요?"라고 재차 질문 한계: 모델이 자신의 오류를 인지하지 못하는 경우가 많음 외부 지식 활용 (RAG)
- 레모나레

1

