TSR: Trajectory-Search Rollouts for Multi-Turn RL of LLM Agents

Created by

Haebom

저자

Aladin Djuhera, Swanand Ravindra Kadhe, Farhan Ahmed, Holger Boche

💡 개요

본 논문은 다중 턴(multi-turn) 강화학습(RL) 환경에서 LLM 에이전트 학습의 어려움을 해결하기 위한 새로운 훈련 방법론인 TSR (Trajectory-Search Rollouts)을 제안합니다. TSR은 각 턴마다 경량화된 트리 탐색을 통해 고품질의 궤적(trajectory)을 생성하여 학습 안정성을 높이고 성능을 향상시킵니다. 이를 통해 희소하거나 지연된 보상 문제로 인한 탐색 효율 저하를 개선하고 모드 붕괴(mode collapse)를 방지합니다.

🔑 시사점 및 한계

•

LLM 기반 다중 턴 RL 학습에서 궤적 생성 품질을 향상시켜 학습 안정성과 성능을 크게 개선할 수 있습니다.

•

기존 최적화 방법론(PPO, GRPO 등) 및 탐색 전략(best-of-N, beam search 등)에 쉽게 통합될 수 있는 일반적인 접근 방식입니다.

•

훈련 시 추가적인 계산 비용이 발생하며, 탐색 깊이 및 전략 선택이 성능에 영향을 미칠 수 있습니다.

PDF 보기

Made with Slashpage