Zhaorun Chen, Zhuokai Zhao, Kai Zhang, Bo Liu, Qi Qi, Yifan Wu, Tarun Kalluri, Sara Cao, Yuanhao Xiong, Haibo Tong, Huaxiu Yao, Hengduo Li, Jiacheng Zhu, Xian Li, Dawn Song, Bo Li, Jason Weston, Dat Huynh
개요
DreamGym은 자율 에이전트의 효과적인 온라인 강화 학습(RL) 훈련을 위해 설계된 최초의 통합 프레임워크입니다. 비용이 많이 드는 실제 환경 롤아웃 대신, DreamGym은 환경 역학을 추론 기반 경험 모델로 추출하여 일관된 상태 전환과 피드백 신호를 생성합니다. 이를 통해 확장 가능한 에이전트 롤아웃 수집을 가능하게 합니다. DreamGym은 오프라인 실제 데이터로 초기화되고 지속적으로 새로운 상호 작용으로 보강되는 경험 리플레이 버퍼를 활용하여 전환의 안정성과 품질을 향상시킵니다. 또한, DreamGym은 현재 에이전트 정책에 도전하는 새로운 작업을 적응적으로 생성하여 보다 효과적인 온라인 커리큘럼 학습을 가능하게 합니다. 다양한 환경과 에이전트 백본에 대한 실험 결과, DreamGym은 완전 합성 설정과 시뮬레이션-실제 전이 시나리오 모두에서 RL 훈련을 크게 향상시킵니다. WebArena와 같은 비 RL 준비 작업에서 DreamGym은 모든 기준선을 30% 이상 능가하며, RL 준비되었지만 비용이 많이 드는 설정에서는 합성 상호 작용만 사용하여 GRPO 및 PPO 성능과 일치합니다.
시사점, 한계점
•
시사점:
◦
DreamGym은 실제 환경 롤아웃 없이도 RL 훈련을 가능하게 하여 비용을 절감하고 확장성을 높임.
◦
추론 기반 경험 모델은 일관된 상태 전환 및 피드백 신호를 생성하여 훈련의 안정성을 향상시킴.
◦
오프라인 데이터 및 지속적인 상호 작용으로 보강되는 경험 리플레이 버퍼를 활용하여 학습 품질을 개선.
◦
적응적 작업 생성을 통해 온라인 커리큘럼 학습을 지원하여 지식 습득을 촉진.
◦
합성 경험을 기반으로 훈련된 정책을 실제 환경에 전이하여 실제 환경 상호 작용 횟수를 줄이는 효과를 보임.
◦
WebArena와 같은 복잡한 환경에서 기존 방법보다 우수한 성능을 달성.
•
한계점:
◦
구체적인 한계점은 논문 내용에서 명시적으로 언급되지 않음. (논문에 따른 내용 요약이므로, 한계점에 대한 직접적인 언급은 없음)