Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

Created by
  • Haebom

저자

Jiaqi Wang, Kevin Qinghong Lin, James Cheng, Mike Zheng Shou

개요

본 논문은 시각-언어 모델(VLMs)의 추론 능력 향상을 위한 강화 학습(RL) 전략으로, 기존의 Group Relative Policy Optimization (GRPO)의 높은 계산 비용 문제를 해결하기 위해 제안된 TON 방법을 소개한다. TON은 생각(추론 과정)을 생략할지 여부를 결정하는 두 단계 학습 전략을 사용한다. 첫 번째 단계인 지도 학습 미세 조정(SFT) 단계에서는 '생각 삭제(thought dropout)' 연산을 통해 추론 과정을 임의로 생략하여 모델이 선택적 추론을 학습하도록 유도한다. 두 번째 단계인 GRPO 단계에서는 과제 성과 보상을 극대화하면서 생각할지 말지를 자유롭게 결정하도록 한다. 실험 결과, TON은 기존 GRPO에 비해 완료 길이를 최대 90%까지 줄이면서 성능 저하 없이 오히려 성능 향상을 보였다. 다양한 시각-언어 과제와 모델 크기(3B, 7B)에 대한 평가를 통해, 모델이 학습이 진행됨에 따라 불필요한 추론 단계를 건너뛰는 것을 학습함을 확인했다.

시사점, 한계점

시사점:
GRPO의 높은 계산 비용 문제를 효과적으로 해결하는 새로운 강화 학습 기반 전략 TON을 제시.
생각 삭제(thought dropout) 기법을 통해 모델이 선택적 추론을 학습하도록 유도하는 효과적인 방법을 제안.
인간과 유사한 추론 패턴을 갖는 VLMs 개발에 대한 새로운 가능성을 제시.
다양한 시각-언어 과제와 모델 크기에 대해 뛰어난 성능을 보임.
한계점:
TON의 효과가 특정 데이터셋이나 과제에 편향될 가능성.
더욱 복잡하고 다양한 추론 과제에 대한 추가적인 실험 필요.
'생각 삭제'의 최적 비율 및 매개변수에 대한 추가적인 연구 필요.
👍