Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CUPID: Curating Data your Robot Loves with Influence Functions

Created by
  • Haebom

저자

Christopher Agia, Rohan Sinha, Jingyun Yang, Rika Antonova, Marco Pavone, Haruki Nishimura, Masha Itkina, Jeannette Bohg

개요

본 논문은 로봇 모방 학습에서 정책 성능이 데모 데이터의 질과 구성에 크게 의존하지만, 개별 데모가 폐루프 작업 성공 또는 실패와 같은 결과에 어떻게 기여하는지 정확하게 이해하는 것이 어려운 점을 지적합니다. 이에 따라, 모방 학습 정책에 대한 새로운 영향 함수 이론적 공식화를 기반으로 하는 로봇 데이터 큐레이션 방법인 CUPID를 제안합니다. CUPID는 평가 롤아웃 집합을 고려하여 각 훈련 데모의 정책의 기대 수익에 대한 영향을 추정하고, 이를 통해 정책의 폐루프 성능에 대한 영향에 따라 데모를 순위 매기고 선택할 수 있습니다. CUPID를 사용하여 정책 성능에 해로운 훈련 데모를 필터링하고, 정책을 가장 개선할 새로운 궤적을 하위 선택하여 데이터를 큐레이션합니다. 시뮬레이션 및 하드웨어 실험을 통해 본 방법이 테스트 시 성능을 주도하는 데이터를 일관되게 식별함을 보여줍니다. 예를 들어, 33% 미만의 큐레이션된 데이터로 훈련하여 시뮬레이션된 RoboMimic 벤치마크에서 최첨단 확산 정책을 얻을 수 있으며, 하드웨어에서도 유사한 성과 향상이 관찰됩니다. 또한, 하드웨어 실험을 통해 분포 변화에서 강력한 전략을 식별하고, 허위 상관 관계를 분리하며, 심지어 일반적인 로봇 정책의 훈련 후 성능을 향상시킬 수 있음을 보여줍니다. 코드와 비디오는 https://cupid-curation.github.io 에서 제공됩니다.

시사점, 한계점

시사점:
모방 학습에서 데이터 큐레이션을 통해 정책 성능을 향상시킬 수 있는 새로운 방법 제시.
적은 양의 데이터로도 최첨단 성능 달성 가능성 증명.
분포 변화에 대한 강건성 및 허위 상관 관계 제거 가능성 확인.
일반적인 로봇 정책의 성능 향상 가능성 제시.
한계점:
제안된 방법의 효과는 사용된 데이터셋과 작업에 따라 달라질 수 있음.
영향 함수 계산의 계산 비용이 클 수 있음.
실제 로봇 시스템에서의 일반화 성능에 대한 추가적인 연구 필요.
👍