Sign In

Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

Created by
  • Haebom
Category
Empty

저자

Jiaqi Wang, Kevin Qinghong Lin, James Cheng, Mike Zheng Shou

개요

강화 학습 (RL)을 사용하여 시각-언어 모델 (VLMs)의 추론 능력을 향상시키는 연구. Group Relative Policy Optimization (GRPO)는 전체 추론 과정을 생성하도록 하여 계산 비용을 증가시킨다. 본 연구는 인간과 유사하게, 쉬운 질문에는 추론을 건너뛰고 필요한 경우에만 신중하게 생각하도록 VLMs가 추론 여부를 먼저 결정하도록 하는 방법을 탐구한다. 이를 위해 '생각 드롭아웃' 연산을 사용하는 감독 학습 미세 조정 (SFT) 단계와, 모델이 생각 여부를 자유롭게 탐색하도록 하는 GRPO 단계를 포함하는 TON (Two-stage training strategy)을 제안한다. 실험 결과, TON은 성능 저하 없이 최대 90%까지 완료 길이를 줄였다. LLM (GSM8K), VLM (CLEVR, Super-CLEVR, GeoQA) 및 Agentic (AITZ) 작업에서 일관된 성능 향상을 보였다.

시사점, 한계점

시사점:
TON은 불필요한 추론 단계를 회피하도록 학습하여 GRPO 대비 완료 길이를 대폭 감소시켰다.
다양한 모델 및 작업 (LLM, VLM, Agentic)에서 일관된 성능 향상을 보였다.
강화 학습 접근 방식에서 인간과 유사한 추론 패턴으로의 가능성을 제시했다.
한계점:
논문 자체에서 구체적인 한계점이 언급되지 않음. (제공된 정보 내에서는 파악 불가)
👍