Hongshen Xu, Zixv yang, Zichen Zhu, Kunyao Lan, Zihan Wang, Mengyue Wu, Ziwei Ji, Lu Chen, Pascale Fung, Kai Yu
개요
본 논문은 대규모 언어 모델(LLM)이 사실과 다른 그럴듯한 출력물을 생성하는 환각(hallucination) 현상보다 더 심각한 문제인, 높은 확신을 가진 잘못된 출력물인 '망상(delusion)' 현상을 제시합니다. 망상은 일반적인 환각과 달리 불확실성이 낮아 감지 및 완화가 어렵습니다. 다양한 모델과 크기, 질문 답변 과제에 대한 실험 분석을 통해 망상이 흔하며 환각과는 구별되는 현상임을 보여줍니다. LLM은 망상에 대해 정직성이 낮으며, 미세 조정이나 자기 반성을 통해 망상을 극복하기 어렵습니다. 망상 형성은 훈련 역학 및 데이터셋 노이즈와 관련이 있으며, 검색 증강 생성 및 다중 에이전트 토론과 같은 완화 전략을 탐구합니다. 본 연구는 LLM 망상의 본질, 빈도 및 완화를 체계적으로 조사하여 이 현상의 근본 원인에 대한 통찰력을 제공하고 모델 신뢰성 향상을 위한 미래 방향을 제시합니다.
시사점, 한계점
•
시사점:
◦
LLM의 환각 현상보다 더 심각한 '망상' 현상을 규명하고 그 특징을 분석.
◦
망상의 발생 원인으로 훈련 데이터의 노이즈와 훈련 과정의 역학을 제시.
◦
망상 완화를 위한 검색 증강 생성 및 다중 에이전트 토론과 같은 새로운 전략 제시.
◦
LLM의 신뢰성 향상을 위한 미래 연구 방향 제시.
•
한계점:
◦
제시된 완화 전략의 효과에 대한 추가적인 연구 필요.
◦
다양한 LLM 아키텍처 및 응용 분야에 대한 망상 현상의 일반화 가능성에 대한 추가 연구 필요.