Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems

Created by
  • Haebom

저자

Zixuan Ke, Fangkai Jiao, Yifei Ming, Xuan-Phi Nguyen, Austin Xu, Do Xuan Long, Minzhi Li, Chengwei Qin, Peifeng Wang, Silvio Savarese, Caiming Xiong, Shafiq Joty

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 중점적으로 다루는 설문 조사 논문입니다. LLM의 추론 능력은 고급 AI 시스템을 기존 모델과 구분하는 핵심 기능으로, 논문에서는 기존 추론 방법들을 두 가지 차원, 즉 추론이 이루어지는 시점(추론 시점 또는 훈련 시점)을 정의하는 '체제(Regimes)'와 추론 과정에 관여하는 구성 요소(독립형 LLM, 외부 도구를 통합한 에이전트 복합 시스템, 다중 에이전트 협업)를 결정하는 '구조(Architectures)'로 분류합니다. 각 차원 내에서는 입력 수준(LLM의 조건이 되는 고품질 프롬프트 생성 기법)과 출력 수준(다중 샘플 후보를 개선하여 추론 품질 향상)의 두 가지 관점을 분석합니다. 추론 스케일링에서 학습 기반 추론(예: DeepSeek-R1)으로의 전환, 에이전트 기반 워크플로우(예: OpenAI Deep Research, Manus Agent)로의 전환과 같은 새로운 동향을 강조하며, 지도 미세 조정부터 PPO 및 GRPO와 같은 강화 학습, 추론자 및 검증자 훈련에 이르는 광범위한 학습 알고리즘을 다룹니다. 또한, 생성기-평가기 및 LLM 논쟁과 같은 기존 패턴부터 최근 혁신에 이르기까지 에이전트 기반 워크플로우의 주요 설계도 조사합니다.

시사점, 한계점

시사점: LLM 추론 방법의 체계적인 이해를 제공하여, 추론 스케일링에서 학습 기반 추론으로, 그리고 독립형 시스템에서 에이전트 기반 시스템으로의 전환과 같은 최신 동향을 파악할 수 있게 합니다. 다양한 학습 알고리즘과 에이전트 기반 워크플로우 설계에 대한 광범위한 분석을 제공합니다.
한계점: 구체적인 알고리즘이나 모델에 대한 상세한 성능 비교 분석은 부족할 수 있습니다. 본 논문은 설문 조사이므로, 새로운 방법론을 제시하기보다는 기존 연구들을 종합적으로 분석하는 데 초점을 맞추고 있습니다. 미래 연구 방향에 대한 제언이 부족할 수 있습니다.
👍