Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems

Created by
  • Haebom

저자

Zixuan Ke, Fangkai Jiao, Yifei Ming, Xuan-Phi Nguyen, Austin Xu, Do Xuan Long, Minzhi Li, Chengwei Qin, Peifeng Wang, Silvio Savarese, Caiming Xiong, Shafiq Joty

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 중점적으로 다루는 설문 조사 논문입니다. LLM의 추론 능력은 고급 AI 시스템을 기존 모델과 구분짓는 핵심 기능으로, 논문에서는 기존 추론 방법들을 두 가지 차원, 즉 추론이 이루어지는 단계(추론 시점 또는 훈련을 통한 추론)를 정의하는 '체제(Regimes)'와 추론 과정에 관여하는 구성 요소(독립형 LLM, 외부 도구를 통합하는 에이전트 복합 시스템, 다중 에이전트 협업)를 결정하는 '구조(Architectures)'로 분류합니다. 각 차원 내에서는 LLM에 조건을 설정하는 고품질 프롬프트를 구성하는 기법에 초점을 맞춘 '입력 수준'과 여러 샘플 후보를 개선하여 추론 품질을 향상시키는 방법에 초점을 맞춘 '출력 수준'의 두 가지 관점을 분석합니다. 논문은 추론 확장에서 학습 기반 추론(예: DeepSeek-R1)으로의 전환, 에이전트 기반 워크플로우(예: OpenAI Deep Research, Manus Agent)로의 전환과 같은 새로운 동향을 강조하며, 지도 학습 미세 조정부터 PPO 및 GRPO와 같은 강화 학습, 추론자 및 검증자 훈련에 이르는 광범위한 학습 알고리즘을 다룹니다. 또한, 생성자-평가자 및 LLM 논쟁과 같은 기존 패턴부터 최근의 혁신적인 에이전트 기반 워크플로우 설계도 검토합니다.

시사점, 한계점

시사점:
LLM 추론 방법들을 체계적으로 분류하여 이해를 돕습니다.
추론 확장에서 학습 기반 추론으로의 전환, 에이전트 기반 워크플로우의 등장과 같은 최신 동향을 제시합니다.
다양한 학습 알고리즘과 에이전트 기반 워크플로우 설계를 포괄적으로 다룹니다.
한계점:
본 논문은 설문 조사 논문이므로, 새로운 방법론이나 실험적 결과를 제시하지 않습니다.
LLM 추론 분야의 급속한 발전 속도를 고려할 때, 논문 발표 시점 이후 새로운 방법론들이 등장할 수 있습니다.
다양한 방법론들을 분류하고 비교 분석하지만, 각 방법론의 성능 비교 및 우열을 명확하게 제시하지는 않습니다.
👍