Planner-R1: Reward Shaping Enables Efficient Agentic RL with Smaller LLMs

작성자

Haebom

카테고리

Empty

저자

Siyu Zhu, Yanbin Jiang, Hejian Sang, Shao Tang, Qingquan Song, Biao He, Rohit Jain, Zhipeng Wang, Alborz Geramifard

개요

본 논문은 \textsc{TravelPlanner} 벤치마크에서 대규모 언어 모델을 사용한 에이전트형 강화 학습(Agentic RL)을 연구했습니다. 연구 결과, \textsc{Planner-R1}은 단 180개의 훈련 질의로 56.9%의 최종 통과율을 달성하여, GPT-5의 21.2% 기준 대비 2.7배 향상되었으며, 공개 리더보드에서 가장 강력한 에이전트형 결과를 보였습니다. 특히, 작은 모델(8B)이 보상 형성에 매우 민감하게 반응하여, 프로세스 수준의 신호로 경쟁력 있는 성능을 달성하면서도 32B 모델보다 3.5배 더 계산 효율적이고 1.5배 더 메모리 효율적이었습니다. 이러한 성과는 과적합 없이 다른 도메인에서도 일반화 성능을 유지했습니다.