Hallucination Detection in LLMs via Topological Divergence on Attention Graphs
Created by
Haebom
저자
Alexandra Bazarova, Aleksandr Yugay, Andrey Shulga, Alina Ermilova, Andrei Volodichev, Konstantin Polev, Julia Belikova, Rauf Parchiev, Dmitry Simakov, Maxim Savchenko, Andrey Savchenko, Serguei Barannikov, Alexey Zaytsev
개요
본 논문은 대규모 언어 모델(LLM)의 환각(hallucination, 사실과 다른 내용 생성) 문제를 해결하기 위해, RAG 설정에서 위상 기반 환각 검출기 TOHA를 제안한다. TOHA는 어텐션 행렬로부터 유도된 그래프의 구조적 특성을 정량화하는 위상적 발산(topological divergence) 메트릭을 활용한다. 프롬프트와 응답 서브그래프 간의 위상적 발산을 조사하여 일관된 패턴을 발견했는데, 특정 어텐션 헤드에서 발산 값이 높을수록 환각된 출력과 상관관계가 높다는 것을 데이터셋과 무관하게 확인했다. 질문 응답 및 데이터-텍스트 변환 작업에 대한 광범위한 실험 결과, 여러 벤치마크에서 최첨단 또는 경쟁력 있는 결과를 달성했으며, 그중 두 개는 논문 저자들이 직접 주석을 달고 공개하여 추가 연구를 촉진했다. TOHA는 우수한 도메인 내 성능뿐 아니라 여러 오픈소스 LLM에 걸쳐 뛰어난 도메인 전이성을 유지한다. 어텐션 행렬의 위상 구조 분석이 LLM의 사실적 신뢰성을 효율적이고 강력하게 나타내는 지표가 될 수 있음을 시사한다.
시사점, 한계점
•
시사점:
◦
어텐션 행렬의 위상 구조 분석을 통해 LLM의 환각을 효과적으로 검출할 수 있는 새로운 방법 제시.