Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Sample-Efficient Expert Query Control in Active Imitation Learning via Conformal Prediction

Created by
  • Haebom
Category
Empty

저자

Arad Firouzkouhi (University of Southern California), Omid Mirzaeedodangeh (ETH Zurich), Lars Lindemann (ETH Zurich)

개요

능동적 모방 학습(AIL)은 훈련 중에 전문가에게 질의하여 공변량 이동에 대처한다. 그러나, 전문가 행동 라벨링은 비용을 압도하는 경우가 많다. CRSAIL(Conformalized Rejection Sampling for Active Imitation Learning)은 전문가가 라벨링한 데이터 세트에 방문한 상태가 부족하게 표현될 때만 전문가 행동을 요청하는 질의 규칙이다. CRSAIL은 $K$번째 가장 가까운 전문가 상태까지의 거리를 기준으로 상태 참신도를 평가하고, 적합 예측을 통해 단일 글로벌 임계값을 설정한다. 이 임계값은 on-policy 보정 점수의 경험적 $(1-\alpha)$ 분위수이며, $\alpha$를 예상 질의율과 연결하고 $\alpha$를 작업에 구애받지 않는 튜닝 노브로 만드는 분포 무관 보정 규칙을 제공한다. 이 상태 공간 질의 전략은 이상치에 강하며, 안전 게이트 기반 AIL과 달리 실시간 전문가 인수를 거치지 않고 실행할 수 있다. 학습기로 전체 궤적(에피소드)을 롤아웃하고, 그 후에 방문한 상태의 하위 집합에 대해 전문가에게 질의한다. MuJoCo 로봇 작업에서 평가한 결과, CRSAIL은 DAgger에 비해 최대 96%, 이전 AIL 방법에 비해 최대 65%까지 총 전문가 질의를 줄이면서 전문가 수준의 보상을 달성하거나 초과하며, $\alpha$와 $K$에 대한 경험적 견고성을 통해 알려지지 않은 동역학을 가진 새로운 시스템에 대한 배포를 용이하게 한다.

시사점, 한계점

시사점:
CRSAIL은 전문가 질의 수를 대폭 줄이면서 전문가 수준의 성능을 달성한다.
$\alpha$를 사용하여 질의율을 조절할 수 있는 분포 무관 보정 규칙을 제공한다.
실시간 전문가 개입 없이 작동하며, 전체 궤적을 롤아웃 후 질의하는 방식으로 효율성을 높인다.
MuJoCo 로봇 작업에서 DAgger 및 이전 AIL 방법보다 우수한 성능을 보였다.
$\alpha$ 및 $K$에 대한 경험적 견고성을 보여 새로운 시스템에 쉽게 적용할 수 있다.
한계점:
해당 논문에서 한계점에 대한 직접적인 언급은 없음. (하지만, 논문에 언급되지 않은 잠재적인 한계는 있을 수 있음)
👍