강화 학습 (RL)으로 후처리된 Vision-Language 모델(VLM)이 시각적 중심의 공간 작업에서 기본 VLM의 한계를 확장할 수 있는지 연구하기 위해, Ariadne 프레임워크를 개발했습니다. Ariadne는 인공 미로를 사용하여 작업 난이도를 정밀하게 제어하며, 강화 학습과 검증된 보상(RLVR)을 사용하여 VLM을 훈련합니다. RLVR 훈련 후, 모델은 기본 모델이 0%를 기록한 문제 세트에서 50% 이상의 정확도를 달성했습니다. 또한, Ariadne는 MapBench에서 평균 16%, ReasonMap에서 24%의 제로샷 성능 향상을 보여 실세계 일반화 능력을 입증했습니다.