Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning
Created by
Haebom
Category
Empty
저자
Yuhong Liu, Beichen Zhang, Yuhang Zang, Yuhang Cao, Long Xing, Xiaoyi Dong, Haodong Duan, Dahua Lin, Jiaqi Wang
개요
본 논문은 대규모 시각-언어 모델(LVLM)의 약점인 공간 이해 능력을 향상시키기 위해, 특별한 감독이나 도구 없이 RGB 또는 RGB-D 이미지로부터 직접 검증 가능한 신호를 얻는 자기 지도 강화 학습(self-supervised RL, Spatial-SSRL) 방식을 제안한다. Spatial-SSRL은 5가지의 전처리 작업을 통해 2D 및 3D 공간 구조를 학습하며, 이를 통해 일반적인 시각 능력을 유지하면서 공간 추론 능력을 크게 향상시킨다. 7개의 공간 이해 벤치마크에서 기존 Qwen2.5-VL 모델보다 평균 4.63%(3B) 및 3.89%(7B)의 정확도 향상을 보였다.
시사점, 한계점
•
시사점:
◦
인간의 개입이나 LVLM 주석 없이, 간단한 내재적 감독만으로도 강화 학습을 통해 LVLM의 공간 지능을 향상시킬 수 있음을 입증.
◦
대규모 데이터와 쉽게 검증 가능한 신호를 활용하여 RLVR(Reinforcement Learning with Verifiable Rewards)의 확장성을 확보.