Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

Created by
  • Haebom

저자

Jiaqi Wang, Kevin Qinghong Lin, James Cheng, Mike Zheng Shou

개요

본 논문은 시각-언어 모델(VLMs)의 추론 능력 향상을 위한 강화 학습(RL) 전략으로, 기존의 Group Relative Policy Optimization (GRPO)의 높은 계산 비용 문제를 해결하기 위해 제안된 TON 방법을 제시합니다. TON은 생각이 필요한지 여부를 먼저 결정하는 두 단계 학습 전략(지도 학습 기반의 생각 생략 연산과 GRPO 기반의 생각 여부 결정)을 사용하여, GRPO에 비해 최대 90%까지 완료 길이를 줄이면서 성능 저하 없이 오히려 성능 향상을 보였습니다. 다양한 시각-언어 작업과 모델 크기(3B, 7B)에서 실험을 통해, 모델이 학습이 진행됨에 따라 불필요한 추론 단계를 건너뛰는 것을 학습함을 보였습니다. 이는 인간과 같은 추론 패턴을 강화 학습 접근 방식에서 구현하는 데 대한 통찰력을 제공합니다.

시사점, 한계점

시사점:
GRPO의 높은 계산 비용 문제를 효과적으로 해결하는 새로운 강화 학습 전략 TON 제시
생각의 필요성을 판단하는 인간과 유사한 추론 패턴을 VLMs에 구현
모델 크기에 상관없이(3B, 7B) 성능 향상 및 계산 비용 감소 효과 확인
불필요한 추론 단계를 스스로 건너뛰는 학습 능력 증명
한계점:
TON의 효과는 제시된 특정 데이터셋과 작업에 국한될 수 있음. 다양한 데이터셋과 작업에 대한 추가적인 실험이 필요함.
'생각 생략' 연산의 최적 매개변수 설정에 대한 추가적인 연구가 필요함.
현재 제시된 방법이 모든 유형의 추론 문제에 효과적인지에 대한 추가적인 검증이 필요함.
👍