Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reasoning Large Language Model Errors Arise from Hallucinating Critical Problem Features

Created by
  • Haebom

저자

Alex Heyman, Joel Zylberberg

개요

본 논문은 강화 학습을 통해 사고 과정(Chain-of-Thought, CoT) 전략으로 추론 작업 성능을 크게 향상시킨 대규모 언어 모델(LLM)이 여전히 완벽하지 않다는 점을 지적한다. 연구진은 다양한 복잡도의 제약 만족 논리 문제인 그래프 컬러링 문제를 이용하여 o1-mini, o3-mini, DeepSeek-R1, Claude 3.7 Sonnet, Gemini 2.5 Pro Preview, Grok 3 Mini Beta 등 여러 RLLM(Reasoning Large Language Models)을 평가했다. 그 결과, 모든 모델에서 상당수의 오답이 프롬프트에 명시되지 않은 에지를 착각(hallucinate)하는 것에서 기인함을 발견했다. 이러한 현상은 문제 복잡도와 의미 프레임에 관계없이 지속적으로 나타났으며, 일부 모델에서는 오답의 대부분을 차지했다. 연구는 RLLM이 문제의 세부 사항을 잘못 표현하는 더 광범위한 문제를 가지고 있을 가능성을 시사하며, 이러한 약점을 완화하기 위한 설계 방안을 제시한다.

시사점, 한계점

시사점: RLLM의 오류 원인 중 상당 부분이 문제 정보의 잘못된 해석(hallucination)에 기인함을 밝힘으로써 RLLM 개발 및 사용에 중요한 시사점을 제공한다. 문제 표현의 정확성을 높이기 위한 설계 개선 방향을 제시한다.
한계점: 그래프 컬러링이라는 특정 문제에 국한된 실험 결과이므로, 다른 유형의 문제에 대한 일반화 가능성은 제한적이다. 오류 원인 분석에 대한 추가 연구가 필요하다. 제시된 설계 개선 방안의 실효성 검증이 추가적으로 필요하다.
👍