TSR: Trajectory-Search Rollouts for Multi-Turn RL of LLM Agents

작성자

Haebom

카테고리

Empty

저자

Aladin Djuhera, Swanand Ravindra Kadhe, Farhan Ahmed, Syed Zawad, Heiko Ludwig, Holger Boche

💡 개요

본 논문은 다회차 강화학습(multi-turn RL)에서 발생하는 희소하거나 지연된 보상, 환경의 확률성 문제를 해결하기 위해 TSR(Trajectory-Search Rollouts)이라는 새로운 훈련 기법을 제안합니다. TSR은 테스트 시점에서 사용되는 스케일링 아이디어를 활용하여 각 턴마다 고품질의 궤적(trajectory)을 생성하며, 이를 통해 학습을 안정화하고 성능을 향상시킵니다. 제안된 기법은 경량 트리 탐색을 통해 고득점 액션을 선택함으로써 궤적의 질을 높이며, 표준 정책 경사 최적화기와 호환되어 최적화기 독립적입니다.

🔑 시사점 및 한계

•

TSR은 탐색을 추론 시간에서 훈련 단계의 롤아웃(rollout) 생성 시점으로 이동시켜, 다회차 학습을 수행하는 LLM 에이전트의 성능을 효과적으로 향상시킵니다.

•

제안된 방법론은 Sokoban, FrozenLake, WebShop과 같은 다양한 환경에서 기존 방식 대비 최대 15%의 성능 향상과 학습 안정성 증진을 입증했습니다.

•

TSR은 기존 프레임워크와 거부 샘플링 방식과 보완적으로 활용될 수 있는 모듈식이고 범용적인 메커니즘을 제공합니다.

•

현재 제안된 TSR은 훈련 컴퓨팅 자원에 약간의 일회성 증가를 요구하며, 탐색 전략의 다양화 및 복잡한 환경에서의 추가적인 검증이 필요할 수 있습니다.

PDF 보기

Made with Slashpage