Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Detection and Mitigation of Hallucination in Large Reasoning Models: A Mechanistic Perspective

Created by
  • Haebom

저자

Zhongxiang Sun, Qipeng Wang, Haoyu Wang, Xiao Zhang, Jun Xu

개요

대규모 추론 모델(LRMs)은 다단계 추론 작업에서 인상적인 성능을 보여주지만, 논리적으로 일관되지만 사실적으로 틀린 추론 과정으로 인해 설득력 있지만 잘못된 결론에 도달하는 추론 환각이라는 새로운 유형의 오류가 나타났습니다. 본 연구는 기계적 관점에서 추론 환각을 조사하여, LRM의 후기 레이어를 어휘 공간에 투영하여 얻은 로짓 간의 차이를 측정함으로써 추론 깊이를 정량화하는 추론 점수를 제안합니다. ReTruthQA 데이터셋을 사용하여 분석한 결과, 추론 깊이의 초기 단계 변동과 잘못된 이전 단계로의 역추적이라는 두 가지 주요 추론 환각 패턴을 확인했습니다. 이러한 통찰력을 바탕으로 최첨단 성능을 달성하는 추론 환각 감지(RHD) 프레임워크를 개발하고, 단계별 심층 추론 보상을 통합하는 강화 학습 알고리즘인 GRPO-R을 도입하여 추론 환각을 완화했습니다. 이론적 분석을 통해 강력한 일반화 보장을 확립하고, 실험을 통해 추론 품질 향상과 환각률 감소를 보였습니다.

시사점, 한계점

시사점:
추론 환각이라는 새로운 유형의 모델 오류를 규명하고 기계적 관점에서 분석.
추론 깊이를 정량화하는 추론 점수를 제안하고, 이를 이용하여 추론 환각의 주요 패턴을 발견.
최첨단 성능의 추론 환각 감지(RHD) 프레임워크 개발.
추론 품질 향상 및 환각률 감소를 위한 강화 학습 알고리즘 GRPO-R 제안.
이론적 분석을 통해 GRPO-R의 강력한 일반화 보장을 확립.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 실험 및 분석 필요.
다양한 LRM과 데이터셋에 대한 RHD 및 GRPO-R의 성능 평가 필요.
추론 환각의 원인에 대한 더 깊이 있는 이해 필요.
GRPO-R의 계산 비용 및 효율성에 대한 추가적인 연구 필요.
👍