Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs

Created by
  • Haebom
Category
Empty

저자

Meng Lu, Ran Xu, Yi Fang, Wenxuan Zhang, Yue Yu, Gaurav Srivastava, Yuchen Zhuang, Mohamed Elhoseiny, Charles Fleming, Carl Yang, Zhengzhong Tu, Yang Xie, Guanghua Xiao, Hanrui Wang, Di Jin, Wenqi Shi, Xuan Wang

개요

본 논문은 시각-언어 모델(VLM)의 멀티 스텝 시각적 상호 작용을 통한 추론 능력 향상을 목표로 합니다. 이를 위해 VLM의 시각적 도구 통합 추론 능력을 장려하는 확장 가능한 훈련 환경인 VISTA-Gym을 제시합니다. VISTA-Gym은 다양한 실제 멀티 모달 추론 작업을 표준화된 인터페이스, 실행 가능한 상호 작용 루프, 검증 가능한 피드백 신호, 효율적인 궤적 로깅과 통합하여 시각적 에이전트 강화 학습을 가능하게 합니다. VISTA-Gym을 통해 저자들은 도구 사용과 에이전트 추론을 결합한 VISTA-R1을 훈련시켰으며, 11개의 VQA 벤치마크에서 기존 모델 대비 우수한 성능을 입증했습니다.

시사점, 한계점

시사점:
VISTA-Gym을 통해 VLM의 도구 통합 추론 능력 향상 가능성을 제시함.
다양한 실제 작업과 표준화된 인터페이스를 통해 효율적인 훈련 환경 구축.
VISTA-R1 모델이 기존 모델 대비 우수한 성능을 보임.
한계점:
논문에 구체적인 한계점에 대한 언급은 없음.
👍