Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

Created by

Haebom

저자

Zhaoyang Wang, Canwen Xu, Boyi Liu, Yite Wang, Siwei Han, Zhewei Yao, Huaxiu Yao, Yuxiong He

💡 개요

최근 LLM 기반 자율 에이전트의 발전은 복잡한 도구 및 환경 상호작용을 가능하게 했으나, 훈련을 위한 다양하고 신뢰할 수 있는 환경 부족이 한계로 지적됩니다. 본 논문은 코드 기반 데이터베이스 백업의 완전 합성 환경 생성 파이프라인인 Agent World Model (AWM)을 제안하며, 이를 통해 1,000개 이상의 일상 시나리오 환경을 구축하고 다수의 도구와 고품질 관측 데이터를 제공합니다. LLM 시뮬레이션 환경보다 신뢰성 높고 효율적인 상호작용이 가능하며, 합성 환경만으로도 벤치마크별 환경을 대체할 정도로 우수한 일반화 성능을 달성함을 실험적으로 입증합니다.

🔑 시사점 및 한계

•

LLM 기반 자율 에이전트 훈련을 위한 대규모의 다양하고 신뢰할 수 있는 합성 환경을 체계적으로 구축하는 방법론을 제시합니다.

•

완전 합성 환경에서의 훈련이 기존 벤치마크별 환경에서의 훈련보다 우수한 OOD(Out-of-Distribution) 일반화 성능을 보여, 새로운 환경에 대한 에이전트의 적응력을 높일 수 있음을 시사합니다.

•

다양한 도구와 고품질 관측 데이터, 그리고 신뢰할 수 있는 보상 함수 설계를 통해 에이전트의 다중 턴 도구 사용 능력을 효과적으로 향상시킬 수 있습니다.

•

제안된 합성 환경이 현실 세계의 복잡하고 예측 불가능한 상황을 완벽하게 모사하는 데는 한계가 있을 수 있으며, 실제 적용 시에는 현실 환경과의 간극을 고려한 추가적인 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage