Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model

Created by
  • Haebom

저자

Delin Qu, Haoming Song, Qizhi Chen, Yuanqi Yao, Xinyi Ye, Yan Ding, Zhigang Wang, JiaYuan Gu, Bin Zhao, Dong Wang, Xuelong Li

개요

본 논문은 로봇 조작에서 공간 이해의 중요성을 강조하며, 로봇 기초 모델을 위한 효과적인 공간 표현을 탐구하는 SpatialVLA를 제안한다. 구체적으로, Ego3D 위치 인코딩을 통해 3D 정보를 시각-언어-행동 모델의 입력 관측값에 주입하고, 적응형 동작 그리드를 제안하여 적응적으로 이산화된 동작 그리드로 로봇의 공간 이동 동작을 표현함으로써 다양한 로봇 제어를 위한 일반화 가능하고 전이 가능한 공간 동작 지식 학습을 용이하게 한다. SpatialVLA는 110만 개의 실제 로봇 에피소드를 사용하여 시각-언어 모델 위에서 사전 훈련되어 여러 로봇 환경과 작업에 걸쳐 일반적인 조작 정책을 학습한다. 사전 훈련 후, SpatialVLA는 제로샷 방식으로 다양한 작업을 수행한다. 시뮬레이션과 실제 로봇 모두에서 우수한 결과는 복잡한 로봇 동작 궤적을 추론하는 능력과 강력한 도메인 내 다중 작업 일반화 능력을 보여준다. 또한, 제안된 적응형 동작 그리드는 사전 훈련된 SpatialVLA 모델을 새로운 시뮬레이션 및 실제 설정에 미세 조정하는 새롭고 효과적인 방법을 제공하며, 사전 학습된 동작 그리드는 새로운 설정의 로봇 특유의 공간 동작을 포착하도록 재이산화된다. 광범위한 평가의 우수한 결과는 뛰어난 분포 내 일반화 및 분포 외 적응 능력을 보여주며, 일반적인 로봇 정책 학습을 위한 제안된 공간 인식 표현의 중요한 이점을 강조한다. 모든 세부 정보와 코드는 공개될 예정이다.

시사점, 한계점

시사점:
로봇 조작에서 공간 이해의 중요성을 재확인하고, 효과적인 공간 표현 방법(Ego3D 위치 인코딩, 적응형 동작 그리드)을 제시하였다.
제로샷 학습을 통해 다양한 작업에 대한 일반화 능력을 보여주었다.
실제 로봇 및 시뮬레이션 환경 모두에서 우수한 성능을 달성하였다.
적응형 동작 그리드를 통해 새로운 환경에 대한 적응력을 향상시켰다.
코드 공개를 통해 재현성 및 확장성을 높였다.
한계점:
사전 훈련 데이터의 규모 및 다양성에 대한 추가적인 연구가 필요하다.
다양한 로봇 플랫폼에 대한 일반화 성능을 더욱 검증해야 한다.
예측 불가능한 상황이나 복잡한 물리적 상호작용에 대한 로봇의 대처 능력에 대한 추가적인 연구가 필요하다.
적응형 동작 그리드의 최적화 파라미터 설정에 대한 추가 연구가 필요하다.
👍