Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs
Created by
Haebom
Category
Empty
저자
Meng Lu, Ran Xu, Yi Fang, Wenxuan Zhang, Yue Yu, Gaurav Srivastava, Yuchen Zhuang, Mohamed Elhoseiny, Charles Fleming, Carl Yang, Zhengzhong Tu, Yang Xie, Guanghua Xiao, Hanrui Wang, Di Jin, Wenqi Shi, Xuan Wang
개요
본 논문은 시각-언어 모델(VLM)의 멀티 스텝 시각적 상호 작용을 통한 추론 능력 향상을 목표로 합니다. 이를 위해 VLM의 시각적 도구 통합 추론 능력을 장려하는 확장 가능한 훈련 환경인 VISTA-Gym을 제시합니다. VISTA-Gym은 다양한 실제 멀티 모달 추론 작업을 표준화된 인터페이스, 실행 가능한 상호 작용 루프, 검증 가능한 피드백 신호, 효율적인 궤적 로깅과 통합하여 시각적 에이전트 강화 학습을 가능하게 합니다. VISTA-Gym을 통해 저자들은 도구 사용과 에이전트 추론을 결합한 VISTA-R1을 훈련시켰으며, 11개의 VQA 벤치마크에서 기존 모델 대비 우수한 성능을 입증했습니다.