SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model
Created by
Haebom
Category
Empty
저자
Delin Qu, Haoming Song, Qizhi Chen, Yuanqi Yao, Xinyi Ye, Yan Ding, Zhigang Wang, JiaYuan Gu, Bin Zhao, Dong Wang, Xuelong Li
개요
본 논문은 로봇 조작에서 공간적 이해가 핵심이라고 주장하며, 로봇 기초 모델을 위한 효과적인 공간 표현을 탐구하는 SpatialVLA를 제안합니다. 구체적으로, Ego3D 위치 인코딩을 통해 3D 정보를 시각-언어-행동 모델의 입력 관찰에 주입하고, 적응형 동작 그리드를 제안하여 적응적으로 이산화된 동작 그리드로 로봇의 공간적 움직임 동작을 표현합니다. 이를 통해 다양한 로봇 제어를 위한 일반화 가능하고 전이 가능한 공간적 동작 지식 학습을 용이하게 합니다. SpatialVLA는 110만 개의 실제 로봇 에피소드를 사용하여 시각-언어 모델 위에서 사전 훈련되어 여러 로봇 환경과 작업에 걸쳐 일반적인 조작 정책을 학습합니다. 사전 훈련 후, SpatialVLA는 제로샷 방식으로 다양한 작업을 수행합니다. 시뮬레이션과 실제 로봇 모두에서 우수한 결과는 복잡한 로봇 동작 궤적을 추론하는 능력과 강력한 도메인 내 다중 작업 일반화 능력을 보여줍니다. 또한, 제안된 적응형 동작 그리드는 사전 훈련된 SpatialVLA 모델을 새로운 시뮬레이션 및 실제 설정에 미세 조정하는 새롭고 효과적인 방법을 제공하며, 사전 학습된 동작 그리드는 새로운 설정의 로봇 특정 공간적 동작을 포착하도록 재이산화됩니다. 광범위한 평가 결과는 뛰어난 분포 내 일반화 및 분포 외 적응 능력을 보여주며, 일반적인 로봇 정책 학습을 위한 제안된 공간 인식 표현의 중요한 이점을 강조합니다. 모든 세부 정보와 코드는 오픈 소스로 공개될 예정입니다.
시사점, 한계점
•
시사점:
◦
로봇 조작에서 공간적 이해의 중요성을 강조하고 효과적인 공간 표현 방법을 제시.
◦
Ego3D 위치 인코딩과 적응형 동작 그리드를 통해 일반화 가능하고 전이 가능한 로봇 조작 정책 학습 가능.