Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reasoning Large Language Model Errors Arise from Hallucinating Critical Problem Features

Created by
  • Haebom

저자

Alex Heyman, Joel Zylberberg

개요

대규모 언어 모델(LLM)이 chain-of-thought(CoT) 전략을 통해 추론 작업 성능을 향상시켰지만, 여전히 완벽하지 않다. 본 연구에서는 o1-mini, o3-mini, DeepSeek-R1, Claude 3.7 Sonnet, Gemini 2.5 Pro Preview, Grok 3 Mini Beta 모델을 사용하여 변수 복잡성 제약 만족 문제인 그래프 채색 문제를 테스트했다. 그 결과, RLLM이 프롬프트에 명시되지 않은 그래프 엣지를 환각하는 경향이 있음을 발견했다. 이러한 현상은 여러 문제 복잡도 수준과 의미 프레임에서 지속되었으며, 모든 테스트 모델의 부정확한 답변에서 상당 부분을 차지했다. 또한 입력 충돌 환각 현상의 일반화 가능성을 안정 매칭 문제에 대한 소규모 실험을 통해 검증했다.

시사점, 한계점

시사점:
RLLM은 문제 특정 사항을 잘못 표현하는 광범위한 문제를 가질 수 있다.
그래프 채색 문제에서 프롬프트에 없는 엣지를 환각하는 경향이 있다.
이러한 환각 현상은 여러 모델에서 공통적으로 나타나며, 문제의 복잡도와 무관하게 발생한다.
안정 매칭 문제에서도 유사한 환각 현상이 발견되었다.
한계점:
제안된 해결책은 제시되지 않음.
테스트된 모델의 종류가 제한적임.
실험 결과가 모든 RLLM에 일반화될 수 있는지에 대한 추가 연구가 필요함.
👍