Sign In

Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries

Created by
  • Haebom
Category
Empty

저자

Minghe Shen, Zhuo Zhi, Chonghan Liu, Shuo Xing, Zhengzhong Tu, Che Liu

개요

Vision-Language Model (VLM)을 강화 학습(RL)으로 post-training하는 경우, 언어 중심적 task 외에 시각 중심적 task에서도 모델의 성능 향상이 이루어질 수 있는지 확인하기 위해, Ariadne라는 프레임워크를 제안함. 이 프레임워크는 multi-step spatial reasoning을 위한 synthetic maze를 사용하고, task 난이도를 조절하여 Reinforcement Learning with Verified Rewards (RLVR)를 통해 VLM을 학습시킴. 그 결과, base model이 0%의 정확도를 보인 문제에서 post-RLVR training된 VLM은 50% 이상의 정확도를 달성하며, 모델의 초기 능력 범위를 확장함을 보임. 또한, out-of-distribution (OOD) 일반화 성능 평가를 위해 실제 벤치마크 (MapBench, ReasonMap)에서 zero-shot 성능 향상을 확인.

시사점, 한계점

시사점:
강화 학습 post-training을 통해 VLM의 시각 중심적 spatial reasoning 능력을 향상시킬 수 있음을 입증.
synthetic maze 환경을 이용한 RLVR 학습이 OOD 일반화 성능 향상에 기여.
실제 벤치마크 (MapBench, ReasonMap)에서 zero-shot 성능 향상을 보임.
한계점:
pre-training 데이터의 opaqueness로 인해 post-training 단계에만 연구를 한정함.
pre-training 단계에서의 연구 필요.
👍