본 논문은 수십억 개의 매개변수를 가진 대규모 언어 모델(LLM)의 문맥 내 학습 능력을 활용한 다단계 추론 분야를 다룹니다. 특히, LLM이 훈련되지 않은 작업에 대해 몇 번의 예시만으로 학습할 수 있는 능력을 살펴보고, 기존 모델이 어려움을 겪는 기본 추론 벤치마크에서 Chain-of-thought와 같은 새로운 문맥 내 학습 접근 방식이 강력한 다단계 추론 능력을 보여주는 것을 분석합니다. 본 논문은 다단계 추론의 생성, 평가 및 제어를 위한 분류법을 제시하고, 핵심 접근 방식과 미해결 문제를 심층적으로 다루며, 향후 연구 방향을 제시합니다. 연구 결과, 다단계 추론 접근 방식은 수학 문제 해결을 넘어 논리, 조합 게임, 로봇 공학 분야에서도 성공적으로 활용되고 있으며, 외부 도구를 사용하여 코드를 생성하고 실행하는 경우도 있습니다. 또한, 강화 학습, 외부 최적화 루프, 문맥 내 강화 학습, 자기 성찰 등 다단계 추론 방법론에 대한 연구 동향을 제시합니다.