StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

작성자

Haebom

카테고리

Empty

저자

Xiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin

💡 개요

본 연구는 장기적인 의사 결정에 어려움을 겪는 LLM 기반 에이전트의 학습을 개선하기 위해 '전략적 궤적 추상화(StraTA)'라는 새로운 프레임워크를 제안합니다. StraTA는 초기 상태에서 압축된 전략을 샘플링하고, 이를 기반으로 후속 행동을 결정하며, 계층적 GRPO 롤아웃 설계를 통해 전략 생성과 행동 실행을 공동으로 학습합니다. ALFWorld, WebShop, SciWorld에서의 실험 결과, StraTA는 샘플 효율성과 최종 성능 모두에서 기존 방법론 대비 우수한 성능을 보였습니다.

🔑 시사점 및 한계

•

LLM 기반 에이전트가 장기적인 의사 결정 문제를 해결하는 데 있어 탐색 및 신용 할당 문제를 개선할 수 있는 새로운 접근 방식을 제시합니다.

•

계층적 학습과 전략 기반 의사 결정 방식을 통해 에이전트의 학습 효율성과 최종 성능을 향상시킬 수 있음을 실험적으로 입증했습니다.

•

다양한 환경에서 SOTA 모델을 능가하는 결과를 달성하여 LLM 기반 에이전트 연구의 새로운 가능성을 열었습니다.

•

본 연구에서 제안된 '전략적 궤적 추상화'의 일반화 가능성과 실제 복잡한 시나리오에서의 적용성은 추가적인 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage