Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning

Created by
  • Haebom

저자

Haozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen

개요

본 논문은 강화 학습을 이용하여 시각-언어 모델의 느린 사고 능력을 향상시키는 방법을 제시합니다. 기존의 빠른 사고 모델(예: GPT-4o)보다 느린 사고 모델(예: GPT-o1, DeepSeek-R1)이 수학 및 과학 벤치마크에서 더 나은 성능을 보이지만, 다중 모드 추론 능력은 비슷한 수준임을 지적합니다. 논문에서는 선택적 샘플 재생(SSR) 기법을 적용한 GRPO 알고리즘과 강제 재고(Forced Rethinking) 기법을 결합하여, 자기 반성 및 검증 단계를 강화하는 VL-Rethinker 모델을 제안합니다. 실험 결과, VL-Rethinker는 MathVista, MathVerse 등 다양한 벤치마크에서 최첨단 성능을 달성하여, OpenAI-o1과의 성능 격차를 줄였습니다.

시사점, 한계점

시사점:
강화 학습과 SSR, Forced Rethinking 기법을 통해 시각-언어 모델의 느린 사고 능력을 효과적으로 향상시킬 수 있음을 보여줌.
MathVista, MathVerse, MathVision, MMMU-Pro, EMMA, MEGA-Bench 등 다양한 벤치마크에서 최첨단 성능 달성.
느린 사고 모델의 성능 향상을 위한 새로운 접근 방식 제시.
한계점:
RL-trained 모델이 제한적인 자기 반성 또는 자기 검증 능력을 보임.
다중 모드 추론 능력 향상에는 추가적인 연구가 필요할 수 있음.
제시된 방법론이 다른 유형의 문제 또는 모델에 얼마나 일반화될 수 있는지에 대한 추가 연구가 필요함.
👍