Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GRIT: Teaching MLLMs to Think with Images

Created by
  • Haebom

저자

Yue Fan, Xuehai He, Diji Yang, Kaizhi Zheng, Ching-Chen Kuo, Yuting Zheng, Sravana Jyothi Narayanaraju, Xinze Guan, Xin Eric Wang

개요

본 논문은 시각-언어 과제를 위한 추론 모델 구축에 강화 학습(Reinforcement Learning, RL)을 활용하는 연구에 대해 제시한다. 기존의 시각 추론 모델들은 순수한 자연어로 추론 과정을 생성하여 시각 정보를 명시적으로 통합하지 못하는 한계를 지닌다. 이를 해결하기 위해, 본 논문에서는 이미지와 텍스트를 사용한 기반 추론(Grounded Reasoning with Images and Texts, GRIT)이라는 새로운 방법을 제안한다. GRIT은 자연어와 명시적인 경계 상자 좌표를 혼합하여 추론 과정을 생성하는 기반 추론 패러다임을 도입한다. GRPO 알고리즘을 기반으로 한 강화 학습 접근 방식인 GRPO-GR을 통해 최종 답변 정확도와 기반 추론 출력 형식에 중점을 둔 강력한 보상을 사용하며, 추론 과정 주석이나 명시적인 경계 상자 레이블이 있는 데이터가 필요 없다. 결과적으로 GRIT은 기존 데이터셋에서 20개의 이미지-질문-답변 셋만으로도 효과적인 훈련을 달성하는 높은 데이터 효율성을 보여준다. 포괄적인 평가를 통해 GRIT이 일관되고 시각적으로 기반을 둔 추론 과정을 생성하도록 MLLM을 효과적으로 훈련시켜 추론 및 기반 능력을 성공적으로 통합함을 보여준다.

시사점, 한계점

시사점:
시각 정보를 명시적으로 통합한 시각 추론 모델을 제시하여, 기존 모델의 한계를 극복하였다.
강화학습 기반 GRPO-GR 알고리즘을 통해 데이터 효율성을 크게 향상시켰다 (20개의 이미지-질문-답변 셋으로 훈련 가능).
일관되고 시각적으로 기반을 둔 추론 과정 생성을 통해 추론과 기반 능력을 성공적으로 통합하였다.
한계점:
GRIT의 성능이 특정 데이터셋에 편향될 가능성이 있다. 더 다양한 데이터셋으로의 일반화 성능에 대한 추가 연구가 필요하다.
제안된 방법의 확장성 및 다른 비전-언어 과제에 대한 적용 가능성에 대한 추가적인 연구가 필요하다.
GRPO-GR 알고리즘의 복잡성 및 계산 비용에 대한 분석이 부족하다.
👍