본 논문은 대규모 언어 모델(LLM)의 추론 능력을 소규모 언어 모델(sLM)로 효율적으로 전이하는 새로운 방법인 "Agent Distillation"을 제안합니다. 기존의 사고 과정(CoT) 추적을 통한 지식 증류 방식의 한계(희귀한 사실적 지식이나 정밀한 계산이 필요한 경우 환각 현상 발생)를 극복하기 위해, LLM 기반 에이전트의 작업 해결 행동 전체를 sLM으로 전이하는 데 초점을 맞춥니다. 이를 위해, 'first-thought prefix'라는 새로운 프롬프팅 기법과 자기 일관적인 행동 생성 방법을 제안하여, 교사 모델이 생성하는 궤적의 질을 향상시키고, 소규모 에이전트의 테스트 시간 강건성을 높입니다. 8가지 추론 작업(사실적 및 수학적 영역 포함, 도메인 내외 일반화 포함)에 대한 평가 결과, 0.5B, 1.5B, 3B 매개변수의 sLM이 CoT 증류를 사용하여 미세 조정된 더 큰 모델(1.5B, 3B, 7B)과 경쟁력 있는 성능을 달성함을 보여줍니다.