Vidar: Embodied Video Diffusion Model for Generalist Manipulation
Created by
Haebom
저자
Yao Feng, Hengkai Tan, Xinyi Mao, Chendong Xiang, Guodong Liu, Shuhe Huang, Hang Su, Jun Zhu
개요
Vidar는 새로운 로봇 플랫폼에 범용 조작 능력을 확장하는 것을 목표로 하는 연구입니다. 이 연구는 대부분의 플랫폼 특정 데이터를 전달 가능한 비디오 사전 정보로 대체하는 저용량 적응 패러다임을 제시합니다. Vidar는 일반화 가능한 사전 정보로 구현된 비디오 확산 모델과 정책의 핵심 분리를 기반으로 하는 마스크 처리된 역학 모델(MIDM) 어댑터로 구성됩니다. 인터넷 규모의 비디오로 사전 훈련된 비디오 확산 모델은 로봇, 카메라, 작업 및 장면 컨텍스트를 통합하는 통일된 관찰 공간을 사용하여 세 개의 실제 로봇 플랫폼에서 750K개의 다중 보기 궤적에 도메인 적응됩니다. MIDM 모듈은 밀집된 레이블 없이 액션 관련 픽셀 마스크를 학습하여 방해 요소를 억제하면서 사전 정보를 대상 플랫폼의 액션 공간에 연결합니다. 이 연구는 라벨이 없는 대규모 비디오로부터 암묵적으로 어포던스, 접촉 역학 및 물리적 일관성을 포착하여 그럴듯하고 시간적으로 일관된 상호 작용의 분포를 모델링하는 생성 비디오 사전 정보를 사용합니다. Vidar는 새로운 로봇에 대한 20분의 인간 시연만으로 기존의 VLA 기반 모델을 능가하며 보이지 않는 작업, 배경 및 카메라 레이아웃으로 일반화됩니다.
시사점, 한계점
•
강력하고 저렴한 비디오 사전 정보와 최소한의 로봇 정렬을 통해 "하나의 사전 정보, 여러 플랫폼"이라는 확장 가능한 접근 방식을 제시합니다.