Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Probing LLM Hallucination from Within: Perturbation-Driven Approach via Internal Knowledge

Created by
  • Haebom

저자

Seongmin Lee (Polo), Hsiang Hsu (Polo), Chun-Fu Chen (Polo), Duen Horng (Polo), Chau

개요

본 논문은 대규모 언어 모델(LLM)의 환각(hallucination) 문제, 즉 사실과 다른 텍스트 생성 문제를 해결하기 위해 새로운 접근 방식을 제시합니다. 기존의 환각 감지 방법들은 외부 지식, LLM 미세 조정 또는 대규모 환각 레이블 데이터셋을 이용한 지도 학습에 의존하는 한계를 지니고 있으며, 환각의 유형을 구분하지 못하는 문제점이 있습니다. 본 논문에서는 LLM 생성 텍스트를 정렬(aligned), 불일치(misaligned), 조작(fabricated)의 세 가지 범주로 분류하는 새로운 과제인 환각 프로빙(hallucination probing)을 제안합니다. 프롬프트의 주요 개체를 변경하면 LLM의 세 가지 유형의 텍스트 생성에 대한 영향이 다르다는 것을 발견하고, 이를 바탕으로 외부 지식, 지도 학습 또는 LLM 미세 조정 없이도 환각을 감지할 수 있는 새로운 방법인 SHINE을 제안합니다. SHINE은 세 가지 최신 LLM에서 효과적으로 환각 프로빙을 수행하며, 네 개의 데이터셋과 네 개의 LLM에 걸쳐 7가지 경쟁 방법을 능가하는 최첨단 성능을 달성하여 정확한 감지를 위한 프로빙의 중요성을 강조합니다.

시사점, 한계점

시사점:
외부 지식, 지도 학습, LLM 미세 조정 없이 환각을 감지하는 새로운 방법(SHINE) 제시.
환각을 세 가지 유형으로 분류하여 감지 성능 향상.
다양한 LLM과 데이터셋에서 최첨단 성능 달성.
환각 프로빙이 정확한 환각 감지에 중요함을 입증.
한계점:
SHINE의 일반화 성능에 대한 추가적인 연구 필요.
다양한 유형의 환각에 대한 SHINE의 성능 비교 분석 필요.
세 가지 환각 유형 분류의 명확한 기준 및 한계 설정 필요.
👍