Vision-Language Model (VLM)을 강화 학습(RL)으로 post-training하는 경우, 언어 중심적 task 외에 시각 중심적 task에서도 모델의 성능 향상이 이루어질 수 있는지 확인하기 위해, Ariadne라는 프레임워크를 제안함. 이 프레임워크는 multi-step spatial reasoning을 위한 synthetic maze를 사용하고, task 난이도를 조절하여 Reinforcement Learning with Verified Rewards (RLVR)를 통해 VLM을 학습시킴. 그 결과, base model이 0%의 정확도를 보인 문제에서 post-RLVR training된 VLM은 50% 이상의 정확도를 달성하며, 모델의 초기 능력 범위를 확장함을 보임. 또한, out-of-distribution (OOD) 일반화 성능 평가를 위해 실제 벤치마크 (MapBench, ReasonMap)에서 zero-shot 성능 향상을 확인.