Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Large Language Models' Reasoning Stalls: An Investigation into the Capabilities of Frontier Models

Created by
  • Haebom

저자

Lachlan McGinness, Peter Baumgartner

개요

본 논문은 2023년 12월부터 2024년 8월까지 최첨단 대규모 언어 모델(LLM)의 자동 정리 증명기(ATP) 추론 전략 사용 능력을 실험적으로 평가한 연구입니다. PRONTOQA steamroller 추론 문제를 사용하여 GPT-4 이후 모델들의 성능을 평가하고, LLM 응답 정확도와 정답 상관관계를 분석하는 방법론을 개발했습니다. 연구 결과, 9개월 동안 LLM의 추론 능력 향상이 정체되었으며, GPT-4 이후의 성능 향상은 대부분 숨겨진 시스템 프롬프트 또는 일반적인 사고 과정 프롬프팅 전략을 자동으로 사용하도록 모델을 훈련한 결과임을 보여줍니다. ATP 추론 전략 중에서는 하향식(순차적 추론) 전략을 가장 잘 따르는 것으로 나타났으며, LLM 응답에 정확한 추론이 포함되어 있는 것과 정확한 결론에 도달하는 것 사이의 상관관계는 낮게 나타났습니다.

시사점, 한계점

시사점:
LLM의 추론 능력 향상이 정체된 현황을 밝힘.
LLM의 추론 능력 향상이 숨겨진 시스템 프롬프트 및 사고 과정 프롬프팅 전략 사용에 의존하는 것을 규명.
현재 최첨단 LLM은 하향식(순차적 추론) 전략을 가장 잘 수행함을 제시.
정확한 추론 과정과 정확한 결론 도출 간의 상관관계가 낮음을 보임.
한계점:
특정 데이터셋(PRONTOQA)에 대한 평가 결과이므로 일반화에 한계가 있음.
평가 기준 및 방법론의 개선 필요성.
다른 ATP 추론 전략에 대한 추가 연구 필요.
👍