Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Humanoid Policy ~ Human Policy

Created by
  • Haebom
Category
Empty

저자

Ri-Zhao Qiu, Shiqi Yang, Xuxin Cheng, Chaitanya Chawla, Jialong Li, Tairan He, Ge Yan, Lars Paulsen, Ge Yang, Sha Yi, Guanya Shi, Xiaolong Wang

개요

본 논문은 다양한 데이터로 인간형 로봇의 조작 정책을 훈련하여 작업 및 플랫폼 간의 강건성과 일반화를 향상시키는 방법을 연구합니다. 로봇 시연만으로 학습하는 것은 노동 집약적이고 비용이 많이 드는 원격 조작 데이터 수집이 필요하다는 한계가 있습니다. 따라서 본 논문에서는 더욱 확장 가능한 데이터 소스인 인간의 시점(egocentric) 데모를 인간형 로봇 학습을 위한 교차 구현체 훈련 데이터로 활용하는 방법을 제시합니다. 인간과 인간형 로봇 간의 구현체 차이를 데이터 및 모델링 관점에서 모두 완화하기 위해, 인간형 로봇 조작 시연과 직접적으로 정렬된 시점 기반 작업 지향 데이터셋(PH2D)을 수집하고, 인간-인간형 로봇 행동 정책인 Human Action Transformer (HAT)를 훈련합니다. HAT의 상태-행동 공간은 인간과 인간형 로봇 모두에 대해 통합되며, 로봇 행동으로 미분 가능하게 재타겟팅될 수 있습니다. 소규모 로봇 데이터와 함께 공동 훈련된 HAT는 추가적인 감독 없이 서로 다른 구현체로 인간과 인간형 로봇을 직접 모델링합니다. 실험 결과, 인간 데이터가 HAT의 일반화 및 강건성을 향상시키고 데이터 수집 효율성을 크게 높이는 것을 보여줍니다. 코드와 데이터는 https://human-as-robot.github.io/ 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
인간의 시점 데모를 활용하여 인간형 로봇 조작 정책 학습의 데이터 효율성을 크게 향상시켰습니다.
Human Action Transformer (HAT)를 통해 인간과 인간형 로봇의 행동을 통합적으로 모델링하는 새로운 방법을 제시했습니다.
제안된 방법이 인간형 로봇의 조작 정책의 일반화 및 강건성을 향상시키는 것을 실험적으로 입증했습니다.
한계점:
PH2D 데이터셋의 규모 및 다양성에 대한 추가적인 연구가 필요합니다.
HAT의 성능은 공동 훈련에 사용된 소규모 로봇 데이터에 의존할 수 있습니다.
다양한 작업 및 환경에 대한 일반화 성능을 더욱 검증해야 합니다.
👍