본 논문은 다중 모달 대규모 언어 모델(MLLM)의 시각-공간적 지능(VSI) 향상을 위한 R1-Zero 유사 훈련에 대한 첫 번째 심층 연구를 수행합니다. 소규모 및 중규모 Qwen2-VL 모델의 시각-공간 추론 능력이 Chain of Thought(CoT) 프롬프트로 활성화될 수 없다는 점을 발견하고, VSI-100k 데이터셋을 사용하여 DeepSeek-R1-Zero 방식을 따르는 GRPO 훈련을 통해 VSI를 향상시켰습니다. GRPO에서 KL 페널티 유지를 중요하게 확인하였고, 120 GPU 시간만으로 Qwen2-VL-2B를 미세 조정한 vsGRPO-2B 모델이 기본 모델보다 12.1% 향상된 성능을 보이며 GPT-4o를 능가하였습니다. 또한 Qwen2-VL-7B를 미세 조정한 vsGRPO-7B 모델은 최고의 오픈소스 모델인 LLaVA-NeXT-Video-72B와 비슷한 성능을 달성했습니다. 지도 학습 미세 조정 및 직접 선호도 최적화 기준선과 비교하여 vsGRPO의 우수한 성능을 확인했습니다. 코드와 데이터셋은 곧 공개될 예정입니다.
시사점, 한계점
•
시사점:
◦
R1-Zero 유사 훈련을 통해 MLLM의 시각-공간 추론 능력을 효과적으로 향상시킬 수 있음을 보임.