Ri-Zhao Qiu, Shiqi Yang, Xuxin Cheng, Chaitanya Chawla, Jialong Li, Tairan He, Ge Yan, Lars Paulsen, Ge Yang, Sha Yi, Guanya Shi, Xiaolong Wang
개요
본 논문은 다양한 데이터로 인간형 로봇의 조작 정책을 훈련하여 작업 및 플랫폼 간의 강건성과 일반화를 향상시키는 방법을 연구합니다. 로봇 시연만으로 학습하는 것은 노동 집약적이고 비용이 많이 드는 원격 조작 데이터 수집이 필요하다는 한계가 있습니다. 따라서 본 논문에서는 더욱 확장 가능한 데이터 소스인 인간의 시점(egocentric) 데모를 인간형 로봇 학습을 위한 교차 구현체 훈련 데이터로 활용하는 방법을 제시합니다. 인간과 인간형 로봇 간의 구현체 차이를 데이터 및 모델링 관점에서 모두 완화하기 위해, 인간형 로봇 조작 시연과 직접적으로 정렬된 시점 기반 작업 지향 데이터셋(PH2D)을 수집하고, 인간-인간형 로봇 행동 정책인 Human Action Transformer (HAT)를 훈련합니다. HAT의 상태-행동 공간은 인간과 인간형 로봇 모두에 대해 통합되며, 로봇 행동으로 미분 가능하게 재타겟팅될 수 있습니다. 소규모 로봇 데이터와 함께 공동 훈련된 HAT는 추가적인 감독 없이 서로 다른 구현체로 인간과 인간형 로봇을 직접 모델링합니다. 실험 결과, 인간 데이터가 HAT의 일반화 및 강건성을 향상시키고 데이터 수집 효율성을 크게 높이는 것을 보여줍니다. 코드와 데이터는 https://human-as-robot.github.io/ 에서 확인할 수 있습니다.