Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use

Created by
  • Haebom

저자

Mingyuan Wu, Jingcheng Yang, Jize Jiang, Meitang Li, Kaizhuo Yan, Hanchao Yu, Minjia Zhang, Chengxiang Zhai, Klara Nahrstedt

개요

본 논문은 시각 언어 모델(VLMs)의 추론 능력 향상을 위한 새로운 프레임워크인 VTool-R1을 제시합니다. 기존의 강화 학습 미세조정(RFT) 방법은 정적인 이미지 입력에 조건화된 텍스트 기반 추론에 그치는 한계를 보였으나, VTool-R1은 파이썬 기반 시각 편집 도구를 RFT 과정에 통합하여 VLM이 텍스트와 중간 시각 추론 단계를 교차적으로 생성하도록 학습시킵니다. 결과 기반 보상을 통해 전략적인 시각 도구 사용을 유도하며, 차트 및 표를 이용한 구조화된 시각적 질문 답변 작업에서 VLM이 이미지를 활용하여 추론하고 다중 모달 체인 오브 쏘트를 생성하도록 향상시킴을 보여줍니다.

시사점, 한계점

시사점:
VLM이 이미지를 활용한 추론 및 다중 모달 체인 오브 쏘트 생성을 가능하게 하는 최초의 프레임워크 제시.
결과 기반 보상을 통한 효율적인 시각 도구 사용 학습 방법 제시.
차트 및 표를 이용한 시각적 질문 답변 작업에서 성능 향상을 실험적으로 검증.
한계점:
현재는 차트 및 표를 이용한 구조화된 시각적 질문 답변 작업에만 적용. 다양한 시각적 데이터 및 작업으로의 일반화 가능성에 대한 추가 연구 필요.
프레임워크의 복잡성 및 파이썬 기반 시각 편집 도구 의존성. 다른 도구나 환경으로의 확장성에 대한 검토 필요.
결과 기반 보상만을 사용하여, 추론 과정 자체에 대한 상세한 분석이 부족할 수 있음. 추론 과정에 대한 더 자세한 이해를 위한 추가 연구 필요.
👍