본 논문은 \textsc{TravelPlanner} 벤치마크에서 대규모 언어 모델을 사용한 에이전트형 강화 학습(Agentic RL)을 연구했습니다. 연구 결과, \textsc{Planner-R1}은 단 180개의 훈련 질의로 56.9%의 최종 통과율을 달성하여, GPT-5의 21.2% 기준 대비 2.7배 향상되었으며, 공개 리더보드에서 가장 강력한 에이전트형 결과를 보였습니다. 특히, 작은 모델(8B)이 보상 형성에 매우 민감하게 반응하여, 프로세스 수준의 신호로 경쟁력 있는 성능을 달성하면서도 32B 모델보다 3.5배 더 계산 효율적이고 1.5배 더 메모리 효율적이었습니다. 이러한 성과는 과적합 없이 다른 도메인에서도 일반화 성능을 유지했습니다.
시사점, 한계점
•
시사점:
◦
보상 형성은 에이전트형 강화 학습 확장을 위한 결정적인 지렛대입니다.
◦
작은 모델(8B)이 경쟁력 있는 성능을 보이며 효율성을 제공합니다.
◦
효율성은 일반화 성능 저하 없이 달성 가능합니다.
•
한계점:
◦
커리큘럼 학습은 유의미한 이점을 제공하지 못했습니다.
◦
큰 모델은 희소 보상 환경에서 더 강건했지만, 보상 형성에 따른 상대적인 이점이 작았습니다.