First Hallucination Tokens Are Different from Conditional Ones
Created by
Haebom
저자
Jakob Snel, Seong Joon Oh
개요
본 논문은 기초 모델의 주요 문제점 중 하나인 환각(hallucination, 사실이 아닌 내용 생성)을 토큰 단위로 검출하는 연구에 관한 것이다. RAGTruth 코퍼스를 활용하여 토큰 단위 주석 및 재현된 로짓(logits)을 분석함으로써, 환각된 구간 내 토큰의 위치에 따라 환각 신호가 어떻게 달라지는지 분석한다. 분석 결과, 첫 번째 환각 토큰이 조건부 토큰보다 더 강한 신호를 가지며 검출이 용이하다는 것을 밝혔다. 또한, 로짓 재현 및 지표 계산을 위한 코드와 함께 분석 프레임워크를 공개했다(https://github.com/jakobsnl/RAGTruth_Xtended).