Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The Map of Misbelief: Tracing Intrinsic and Extrinsic Hallucinations Through Attention Patterns

Created by
  • Haebom
Category
Empty

저자

Elyes Hajji, Aymen Bouguerra, Fabio Arnez

개요

대규모 언어 모델(LLM)은 안전 필수적인 영역에서 점점 더 많이 사용되지만 환각 현상에 취약하다. 기존 연구는 환각 감지를 위한 신뢰도 표현 방법을 제안했지만, 대부분 계산 비용이 많이 드는 샘플링 전략에 의존하고 환각 유형 간의 구분을 무시했다. 본 연구에서는 외부적 및 내부적 환각 범주를 구분하고 엄선된 벤치마크를 통해 감지 성능을 평가하는 체계적인 평가 프레임워크를 제시한다. 또한, 최근의 주의 기반 불확실성 정량화 알고리즘을 활용하여 해석 가능성과 환각 감지 성능을 향상시키는 새로운 주의 집계 전략을 제안한다. 실험 결과에 따르면 Semantic Entropy와 같은 샘플링 기반 방법은 외부적 환각 감지에 효과적이지만, 내부적 환각에는 일반적으로 실패한다. 반면, 입력 토큰에 대한 주의를 집계하는 본 연구의 방법은 내부적 환각에 더 적합하다. 이러한 통찰력은 감지 전략을 환각의 본질에 맞추는 새로운 방향을 제시하고 모델 불확실성을 정량화하는 풍부한 신호로서의 주의를 강조한다.

시사점, 한계점

시사점:
외부적 및 내부적 환각 유형을 구분하는 평가 프레임워크 제시.
주의 집계 전략을 활용하여 내부적 환각 감지 성능 향상.
주의가 모델 불확실성 정량화에 유용한 신호임을 입증.
한계점:
샘플링 기반 방법이 특정 환각 유형(내부적) 감지에 취약함.
제안된 방법의 일반화 가능성 및 다른 LLM 모델에 대한 적용에 대한 추가 연구 필요.
👍