Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries

Created by
  • Haebom
Category
Empty

저자

Minghe Shen, Zhuo Zhi, Chonghan Liu, Shuo Xing, Zhengzhong Tu, Che Liu

개요

강화 학습 (RL)으로 후처리된 Vision-Language 모델(VLM)이 시각적 중심의 공간 작업에서 기본 VLM의 한계를 확장할 수 있는지 연구하기 위해, Ariadne 프레임워크를 개발했습니다. Ariadne는 인공 미로를 사용하여 작업 난이도를 정밀하게 제어하며, 강화 학습과 검증된 보상(RLVR)을 사용하여 VLM을 훈련합니다. RLVR 훈련 후, 모델은 기본 모델이 0%를 기록한 문제 세트에서 50% 이상의 정확도를 달성했습니다. 또한, Ariadne는 MapBench에서 평균 16%, ReasonMap에서 24%의 제로샷 성능 향상을 보여 실세계 일반화 능력을 입증했습니다.

시사점, 한계점

RLVR 훈련은 VLM의 초기 능력 범위를 확장하여 시각적 공간 추론 능력을 향상시킬 수 있음.
합성 데이터로 훈련된 모델이 실세계 벤치마크에서도 상당한 일반화 성능을 보임.
연구는 VLM의 후처리 단계에만 국한되어 있으며, 사전 훈련 데이터의 불투명성으로 인한 한계가 존재함.
추가적인 전문화된 능력 확장 정렬 연구에 대한 동기를 부여함.
👍