GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents

작성자

Haebom

카테고리

Empty

저자

Xiongbin Wu, Zhihao Luo, Shanzhe Lei, Lechao Zhang, Xuhong Wang, Jie Yang, Zhonglong Zheng, Yuanjie Zheng, Xin Tan, Wei Liu

💡 개요

기존 VLM 에이전트는 오픈월드 태스크에서 다중 턴의 시각적 인지와 행동 실행을 필요로 하지만, GRPO와 같은 고급 RL 알고리즘을 효과적으로 활용하지 못했습니다. 본 논문에서는 GRPO의 학습 샘플 요구사항을 완화하기 위해 궤적을 상태-행동 샘플로 분해하고 이들 간의 이점을 계산하는 GROW 프레임워크를 제안합니다. 이를 통해 장기간의 컨텍스트와 노이즈 문제를 해결하고, Minecraft 태스크에서 SOTA 성능을 달성했습니다.

🔑 시사점 및 한계

•

오픈월드 VLM 에이전트의 다중 턴 RL 학습에서 GRPO 알고리즘의 효율성을 높이는 새로운 프레임워크(GROW)를 제시했습니다.

•

궤적을 상태-행동 샘플 단위로 분해하여 학습 효율성을 개선하고, 기존 GRPO의 한계를 극복할 수 있음을 이론적으로 분석하고 실험적으로 입증했습니다.

•

본 연구는 GRPO와 같은 고급 RL 알고리즘을 VLM 에이전트의 복잡한 오픈월드 태스크에 적용하는 데 기여하며, 향후 더 정교한 VLM 에이전트 개발에 대한 가능성을 열어줍니다.

•

(한계점 또는 향후 과제): 다양한 오픈월드 환경에서의 일반화 성능 검증, 더 복잡한 환경에서의 효율성 및 안정성 개선, 그리고 GROW 프레임워크를 활용한 VLM 에이전트의 탐험 및 학습 전략 최적화 등이 향후 연구 과제가 될 수 있습니다.

PDF 보기

Made with Slashpage