본 논문은 대규모 언어 모델(LLM)을 다중 턴 도구 통합 추론(TIR) 훈련에 적용하는 데 있어 기존 강화 학습(RL) 방법의 한계를 지적하고, 이를 해결하기 위해 새로운 RL 알고리즘인 Group Turn Policy Optimization (GTPO)를 제안합니다. GTPO는 턴 단위 보상 할당, 반환 기반 어드밴티지 추정, 자체 지도 학습 기반 보상 쉐이핑을 통해 훈련 정체를 극복하고 복잡한 수학적 추론을 개선하는 것을 목표로 합니다. 실험 결과, GTPO가 기존 방법인 GRPO보다 우수한 성능을 보였습니다.
시사점, 한계점
•
시사점:
◦
GTPO는 다중 턴 TIR 작업에서 LLM의 성능을 향상시키는 데 효과적인 새로운 RL 알고리즘입니다.
◦
세 가지 혁신적인 기법(턴 단위 보상, 반환 기반 어드밴티지, 자체 지도 학습 기반 보상 쉐이핑)을 통해 훈련 효율성을 높였습니다.
◦
다양한 추론 벤치마크에서 GRPO 대비 3.0% 평균 성능 향상을 보였습니다.
•
한계점:
◦
논문에 구체적인 한계점에 대한 언급은 없으나, 실제 환경에서의 일반화 능력과 대규모 모델 훈련에 필요한 자원 소모에 대한 추가적인 연구가 필요할 수 있습니다.
◦
제안된 방법론이 다른 복잡한 문제에 얼마나 적용될 수 있는지에 대한 추가적인 검증이 필요합니다.