Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Improved Visual-Spatial Reasoning via R1-Zero-Like Training

Created by
  • Haebom

저자

Zhenyi Liao, Qingsong Xie, Yanhao Zhang, Zijian Kong, Haonan Lu, Zhenyu Yang, Zhijie Deng

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 시각-공간적 지능(VSI) 향상을 위한 R1-Zero 유사 훈련에 대한 첫 번째 심층 연구를 수행합니다. 소규모 및 중규모 Qwen2-VL 모델의 시각-공간 추론 능력이 Chain of Thought(CoT) 프롬프트로 활성화될 수 없다는 점을 발견하고, VSI-100k 데이터셋을 사용하여 DeepSeek-R1-Zero 방식을 따르는 GRPO 훈련을 통해 VSI를 향상시켰습니다. GRPO에서 KL 페널티 유지를 중요하게 확인하였고, 120 GPU 시간만으로 Qwen2-VL-2B를 미세 조정한 vsGRPO-2B 모델이 기본 모델보다 12.1% 향상된 성능을 보이며 GPT-4o를 능가하였습니다. 또한 Qwen2-VL-7B를 미세 조정한 vsGRPO-7B 모델은 최고의 오픈소스 모델인 LLaVA-NeXT-Video-72B와 비슷한 성능을 달성했습니다. 지도 학습 미세 조정 및 직접 선호도 최적화 기준선과 비교하여 vsGRPO의 우수한 성능을 확인했습니다. 코드와 데이터셋은 곧 공개될 예정입니다.

시사점, 한계점

시사점:
R1-Zero 유사 훈련을 통해 MLLM의 시각-공간 추론 능력을 효과적으로 향상시킬 수 있음을 보임.
제한된 GPU 시간(120시간)으로도 상당한 성능 향상을 달성함.
vsGRPO 모델이 기존 최고 성능 모델들과 비교하여 경쟁력 있는 성능을 보임.
GRPO 훈련에서 KL 페널티의 중요성을 강조함.
한계점:
코드와 데이터셋이 아직 공개되지 않음.
VSI-100k 데이터셋의 규모 및 구성에 대한 자세한 설명 부족.
다양한 MLLM 모델 및 데이터셋에 대한 일반화 성능 검증 필요.
👍