CUPID: Curating Data your Robot Loves with Influence Functions
Created by
Haebom
저자
Christopher Agia, Rohan Sinha, Jingyun Yang, Rika Antonova, Marco Pavone, Haruki Nishimura, Masha Itkina, Jeannette Bohg
개요
본 논문은 로봇 모방 학습에서 정책 성능이 데모 데이터의 질과 구성에 크게 의존하지만, 개별 데모가 폐루프 작업 성공 또는 실패와 같은 결과에 어떻게 기여하는지 정확하게 이해하는 것이 어려운 점을 지적합니다. 이에 따라, 모방 학습 정책에 대한 새로운 영향 함수 이론적 공식화를 기반으로 하는 로봇 데이터 큐레이션 방법인 CUPID를 제안합니다. CUPID는 평가 롤아웃 집합을 고려하여 각 훈련 데모의 정책의 기대 수익에 대한 영향을 추정하고, 이를 통해 정책의 폐루프 성능에 대한 영향에 따라 데모를 순위 매기고 선택할 수 있습니다. CUPID를 사용하여 정책 성능에 해로운 훈련 데모를 필터링하고, 정책을 가장 개선할 새로운 궤적을 하위 선택하여 데이터를 큐레이션합니다. 시뮬레이션 및 하드웨어 실험을 통해 본 방법이 테스트 시 성능을 주도하는 데이터를 일관되게 식별함을 보여줍니다. 예를 들어, 33% 미만의 큐레이션된 데이터로 훈련하여 시뮬레이션된 RoboMimic 벤치마크에서 최첨단 확산 정책을 얻을 수 있으며, 하드웨어에서도 유사한 성과 향상이 관찰됩니다. 또한, 하드웨어 실험을 통해 분포 변화에서 강력한 전략을 식별하고, 허위 상관 관계를 분리하며, 심지어 일반적인 로봇 정책의 훈련 후 성능을 향상시킬 수 있음을 보여줍니다. 코드와 비디오는 https://cupid-curation.github.io 에서 제공됩니다.