Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Learning to Reason for Hallucination Span Detection

Created by
  • Haebom

저자

Hsuan Su, Ting-Yao Hu, Hema Swetha Koppula, Kundan Krishna, Hadi Pouransari, Cheng-Yu Hsieh, Cem Koc, Joseph Yitan Cheng, Oncel Tuzel, Raviteja Vemulapalli

LLM의 환각 현상 감지를 위한 강화 학습 기반 프레임워크 RL4HS

개요

대규모 언어 모델(LLM)은 종종 신뢰성을 떨어뜨리는 근거 없는 콘텐츠인 환각 현상을 생성한다. 대부분의 기존 연구는 환각 감지를 이진 분류 문제로 다루지만, 실제 응용 분야에서는 환각 범위를 식별해야 하므로 다단계 의사 결정 과정이 필요하다. 이에 대한 해답을 찾기 위해, Chain-of-Thought (CoT) 추론을 사용하여 사전 훈련된 모델을 평가하고, 여러 번 샘플링 시 CoT 추론이 최소한 하나의 정답을 생성할 수 있음을 확인했다. 이를 바탕으로, 범위 수준의 보상 함수를 통해 추론을 장려하는 강화 학습 프레임워크인 RL4HS를 제안한다. RL4HS는 Group Relative Policy Optimization을 기반으로 하며, 보상 불균형 문제를 완화하기 위해 Class-Aware Policy Optimization을 도입한다. RAGTruth 벤치마크(요약, 질문 응답, 데이터-텍스트 변환) 실험 결과, RL4HS는 사전 훈련된 추론 모델 및 지도 학습 기반 미세 조정보다 우수한 성능을 보였으며, 환각 범위를 감지하는 데 범위 수준 보상을 사용한 강화 학습의 필요성을 입증했다.

시사점, 한계점

시사점:
LLM 환각 현상 감지를 위한 효과적인 강화 학습 프레임워크(RL4HS) 제시.
CoT 추론의 가능성을 확인하고, 이를 기반으로 한 강화 학습의 필요성을 강조.
범위 수준의 보상 함수를 활용하여 환각 범위 감지 성능 향상.
Group Relative Policy Optimization 및 Class-Aware Policy Optimization을 통해 학습 안정성 확보.
RAGTruth 벤치마크에서 기존 모델 대비 우수한 성능 입증.
한계점:
특정 벤치마크 데이터셋(RAGTruth)에 대한 성능만 평가.
RL4HS의 일반화 가능성 및 다른 도메인에 대한 적용 가능성 추가 연구 필요.
모델 복잡성 및 계산 비용에 대한 분석 부족.
👍