Ri-Zhao Qiu, Shiqi Yang, Xuxin Cheng, Chaitanya Chawla, Jialong Li, Tairan He, Ge Yan, David J. Yoon, Ryan Hoque, Lars Paulsen, Ge Yang, Jian Zhang, Sha Yi, Guanya Shi, Xiaolong Wang
개요
본 논문은 다양한 데이터로 휴머노이드 로봇의 조작 정책을 훈련하여 작업 및 플랫폼 간의 강건성과 일반화 성능을 향상시키는 방법을 연구합니다. 로봇 시연만으로 학습하는 것은 노동 집약적이고 비용이 많이 드는 원격 조작 데이터 수집이 필요하여 확장하기 어렵다는 한계가 있습니다. 따라서 본 논문에서는 더욱 확장 가능한 데이터 소스인 인간의 시점(egocentric) 시연을 휴머노이드 로봇 학습을 위한 크로스 임보디먼트(cross-embodiment) 훈련 데이터로 활용하는 방법을 조사합니다. 휴머노이드와 인간 간의 임보디먼트 차이를 데이터 및 모델링 관점에서 모두 완화하기 위해, 휴머노이드 조작 시연과 직접적으로 정렬된 인간 중심 작업 지향 데이터셋(PH2D)을 수집하고, 인간-휴머노이드 행동 정책인 Human Action Transformer (HAT)를 훈련합니다. HAT의 상태-행동 공간은 인간과 휴머노이드 로봇 모두에 대해 통합되며, 로봇 행동으로 미분 가능하게 재타겟팅될 수 있습니다. 소규모 로봇 데이터와 함께 공동 훈련된 HAT는 추가적인 감독 없이 서로 다른 임보디먼트로서 인간과 휴머노이드 로봇을 직접 모델링합니다. 실험 결과, 인간 데이터가 데이터 수집 효율성을 크게 향상시키면서 HAT의 일반화 및 강건성을 모두 향상시키는 것을 보여줍니다. 코드와 데이터는 https://human-as-robot.github.io/ 에서 제공됩니다.