Sign In

SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model

Created by
  • Haebom
Category
Empty

저자

Delin Qu, Haoming Song, Qizhi Chen, Yuanqi Yao, Xinyi Ye, Yan Ding, Zhigang Wang, JiaYuan Gu, Bin Zhao, Dong Wang, Xuelong Li

개요

본 논문은 로봇 조작에서 공간적 이해가 핵심이라고 주장하며, 로봇 기초 모델을 위한 효과적인 공간 표현을 탐구하는 SpatialVLA를 제안합니다. 구체적으로, Ego3D 위치 인코딩을 통해 3D 정보를 시각-언어-행동 모델의 입력 관찰에 주입하고, 적응형 동작 그리드를 제안하여 적응적으로 이산화된 동작 그리드로 로봇의 공간적 움직임 동작을 표현합니다. 이를 통해 다양한 로봇 제어를 위한 일반화 가능하고 전이 가능한 공간적 동작 지식 학습을 용이하게 합니다. SpatialVLA는 110만 개의 실제 로봇 에피소드를 사용하여 시각-언어 모델 위에서 사전 훈련되어 여러 로봇 환경과 작업에 걸쳐 일반적인 조작 정책을 학습합니다. 사전 훈련 후, SpatialVLA는 제로샷 방식으로 다양한 작업을 수행합니다. 시뮬레이션과 실제 로봇 모두에서 우수한 결과는 복잡한 로봇 동작 궤적을 추론하는 능력과 강력한 도메인 내 다중 작업 일반화 능력을 보여줍니다. 또한, 제안된 적응형 동작 그리드는 사전 훈련된 SpatialVLA 모델을 새로운 시뮬레이션 및 실제 설정에 미세 조정하는 새롭고 효과적인 방법을 제공하며, 사전 학습된 동작 그리드는 새로운 설정의 로봇 특정 공간적 동작을 포착하도록 재이산화됩니다. 광범위한 평가 결과는 뛰어난 분포 내 일반화 및 분포 외 적응 능력을 보여주며, 일반적인 로봇 정책 학습을 위한 제안된 공간 인식 표현의 중요한 이점을 강조합니다. 모든 세부 정보와 코드는 오픈 소스로 공개될 예정입니다.

시사점, 한계점

시사점:
로봇 조작에서 공간적 이해의 중요성을 강조하고 효과적인 공간 표현 방법을 제시.
Ego3D 위치 인코딩과 적응형 동작 그리드를 통해 일반화 가능하고 전이 가능한 로봇 조작 정책 학습 가능.
제로샷 학습 및 적응형 미세 조정을 통한 다양한 환경과 작업에 대한 우수한 성능.
실제 로봇 및 시뮬레이션 환경에서의 효과적인 성능 검증.
코드 공개를 통한 재현성 및 활용성 증대.
한계점:
110만 개의 실제 로봇 에피소드라는 방대한 데이터셋에 대한 의존성.
적응형 동작 그리드의 재이산화 과정의 복잡성 및 효율성 문제.
다양한 로봇 유형 및 작업에 대한 일반화 능력의 한계.
실제 세계의 복잡성과 예측 불가능성에 대한 취약성.
장기간의 로봇 작업 수행 시 성능 저하 가능성.
👍