Sign In

How to Steer LLM Latents for Hallucination Detection?

Created by
  • Haebom
Category
Empty

저자

Seongheon Park, Xuefeng Du, Min-Hsuan Yeh, Haobo Wang, Yixuan Li

개요

본 논문은 대규모 언어 모델(LLM)의 환각(hallucination) 문제 해결을 위한 새로운 방법인 Truthfulness Separator Vector (TSV)를 제안합니다. TSV는 모델 파라미터를 변경하지 않고 추론 과정에서 LLM의 표현 공간을 재구성하여 사실적 내용과 환각적 내용을 더 명확하게 분리하는 경량의 조향 벡터입니다. 두 단계 프레임워크를 통해 소량의 라벨된 데이터로 TSV를 학습하고, 최적 전송(optimal transport) 기반 알고리즘과 신뢰도 기반 필터링을 사용하여 라벨되지 않은 LLM 생성 결과를 활용합니다. 실험 결과, TSV는 최소한의 라벨 데이터로 최첨단 성능을 달성하고 데이터 집합 간에 강력한 일반화 성능을 보이는 실용적인 솔루션임을 보여줍니다.

시사점, 한계점

시사점:
소량의 라벨 데이터만으로도 LLM의 환각 문제를 효과적으로 해결할 수 있는 실용적인 방법 제시
모델 파라미터 수정 없이 추론 과정에서 환각 감지를 개선
다양한 데이터셋에 대한 강력한 일반화 성능
최적 전송 기반 알고리즘과 신뢰도 기반 필터링을 통한 효율적인 비지도 학습 활용
한계점:
TSV 학습에 필요한 소량의 라벨 데이터 확보의 어려움 및 비용
제안된 방법의 성능이 특정 유형의 환각에만 국한될 가능성
최적 전송 알고리즘의 계산 비용 및 복잡성
다양한 LLM 아키텍처 및 환각 유형에 대한 일반화 성능의 추가적인 검증 필요
👍