Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning
Created by
Haebom
Category
Empty
저자
Yuhong Liu, Beichen Zhang, Yuhang Zang, Yuhang Cao, Long Xing, Xiaoyi Dong, Haodong Duan, Dahua Lin, Jiaqi Wang
Spatial-SSRL: 자가 지도 학습 기반 LVLM의 공간 이해력 향상
개요
본 논문은 대규모 시각-언어 모델(LVLM)의 공간 이해력 부족 문제를 해결하기 위해, 특별한 감독 없이 RGB 또는 RGB-D 이미지에서 직접 검증 가능한 신호를 추출하는 자가 지도 강화 학습(RL) 패러다임인 Spatial-SSRL을 제안합니다. Spatial-SSRL은 2D 및 3D 공간 구조를 포착하는 다섯 가지 사전 훈련 태스크 (shuffled patch reordering, flipped patch recognition, cropped patch inpainting, regional depth ordering, relative 3D position prediction)를 자동 생성합니다. 이러한 태스크는 인간 또는 LVLM 주석 없이도 검증 가능한 정답을 제공합니다. 제안하는 방법론을 통해 학습된 모델은 공간 추론 능력을 향상시키면서 일반적인 시각적 능력도 유지합니다.