Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Probing LLM Hallucination from Within: Perturbation-Driven Approach via Internal Knowledge

Created by
  • Haebom

저자

Seongmin Lee, Hsiang Hsu, Chun-Fu Chen, Duen Horng Chau

개요

본 논문은 대규모 언어 모델(LLM)의 환각(hallucination) 문제, 즉 사실과 다른 텍스트 생성 문제를 해결하기 위한 새로운 방법인 SHINE을 제안한다. 기존의 환각 검출 방법들은 외부 지식, LLM 미세 조정 또는 대규모 환각 레이블 데이터셋을 이용한 지도 학습에 의존하는 반면, SHINE은 이러한 요소들을 필요로 하지 않는다. SHINE은 프롬프트의 주요 엔티티를 변경하여 생성된 텍스트를 정렬된(aligned), 부정렬된(misaligned), 조작된(fabricated) 세 가지 유형으로 분류하는 새로운 환각 조사(hallucination probing) 작업을 통해 작동한다. 실험 결과, SHINE은 세 가지 최신 LLM에서 효과적이며, 네 가지 데이터셋과 네 가지 LLM에 걸쳐 7가지 경쟁 방법을 능가하는 최첨단 성능을 달성함으로써 정확한 검출을 위한 조사의 중요성을 강조한다.

시사점, 한계점

시사점:
외부 지식, LLM 미세 조정, 또는 대규모 지도 학습 데이터 없이 LLM 환각을 효과적으로 검출하는 새로운 방법(SHINE)을 제시.
환각의 유형(정렬, 부정렬, 조작)을 구분하여 검출 성능 향상.
다양한 LLM과 데이터셋에서 최첨단 성능 달성.
프롬프트의 주요 엔티티 변경을 통한 환각 조사의 효용성을 증명.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요.
다양한 유형의 환각 및 복잡한 프롬프트에 대한 robustness 평가가 필요.
세 가지 환각 유형 분류의 기준 및 정의에 대한 명확한 설명이 필요할 수 있음.
👍