본 논문은 시각 언어 모델(VLMs)의 추론 능력을 향상시키기 위해 강화 학습 미세 조정(RFT)을 활용한 새로운 프레임워크인 VTool-R1을 제시합니다. 기존 연구들이 정적 이미지를 조건으로 텍스트 기반 추론에만 집중한 것과 달리, VTool-R1은 텍스트와 중간 시각적 추론 단계를 교차하여 다중 모드 사고 과정을 생성하도록 VLMs를 학습시킵니다. Python 기반 시각 편집 도구를 RFT 프로세스에 통합하여 VLM이 최종 추론에 도움이 되는 시각적 추론 단계를 언제 어떻게 생성할지 학습하도록 합니다. 결과 기반 보상을 통해 전략적인 시각 도구 사용을 유도하며, 차트 및 표를 이용한 구조화된 시각적 질문 응답 작업에서 VLM이 이미지를 활용하여 추론하고 다중 모드 사고 과정을 생성하도록 향상시킵니다.
시사점, 한계점
•
시사점:
◦
VLMs의 다중 모달 추론 능력 향상을 위한 새로운 프레임워크 VTool-R1 제시.
◦
텍스트와 시각적 추론 단계를 교차하는 다중 모달 사고 과정 생성 가능.
◦
결과 기반 보상을 통한 효율적인 시각 도구 사용 학습.
◦
차트 및 표를 이용한 시각적 질문 응답 작업에서 성능 향상 확인.
•
한계점:
◦
현재는 차트 및 표에 대한 시각적 질문 응답 작업에만 적용. 다른 유형의 시각 자료나 작업에 대한 일반화 가능성은 추가 연구 필요.
◦
Python 기반 시각 편집 도구에 의존적이며, 다른 도구나 환경으로의 확장성 검증 필요.
◦
결과 기반 보상만을 사용하여, 과정에 대한 감독이 부족할 수 있음. 더욱 세밀한 과정에 대한 분석 및 평가가 필요.