RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation
Created by
Haebom
Category
Empty
저자
Songming Liu, Lingxuan Wu, Bangguo Li, Hengkai Tan, Huayu Chen, Zhengyi Wang, Ke Xu, Hang Su, Jun Zhu
개요
본 논문은 이중 수동 조작을 위한 최초의 확산 기반 기초 모델인 Robotics Diffusion Transformer (RDT)를 제시합니다. RDT는 다중 모드 동작 분포를 효과적으로 나타내기 위해 확산 모델을 기반으로 하며, 다중 모드 입력의 이질성을 처리하고 로봇 데이터의 비선형성과 고주파수를 포착하기 위해 확장 가능한 Transformer를 혁신적으로 설계했습니다. 데이터 부족 문제를 해결하기 위해, 다양한 로봇의 동작 표현을 통합하면서 원래 동작의 물리적 의미를 보존하는 물리적으로 해석 가능한 통합 동작 공간을 도입하여 전이 가능한 물리적 지식 학습을 용이하게 합니다. 이러한 설계를 통해, 현재까지 가장 큰 다중 로봇 데이터 세트 모음으로 RDT를 사전 훈련하고 12억 개의 매개변수로 확장하여 로봇 조작을 위한 가장 큰 확산 기반 기초 모델을 만들었습니다. 마지막으로 6,000개 이상의 에피소드가 포함된 자체 생성 다중 작업 이중 수동 데이터 세트에서 RDT를 미세 조정하여 조작 기능을 개선했습니다. 실제 로봇 실험을 통해 RDT가 기존 방법보다 훨씬 우수하다는 것을 보여주었습니다. RDT는 보이지 않는 객체와 장면에 대한 제로샷 일반화를 보여주고, 언어 지시를 이해하고 따르며, 단 1~5개의 시연만으로 새로운 기술을 학습하고, 복잡하고 능숙한 작업을 효과적으로 처리합니다. 코드와 비디오는 https://rdt-robotics.github.io/rdt-robotics/ 에서 확인할 수 있습니다.