Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Conformalized Interactive Imitation Learning: Handling Expert Shift and Intermittent Feedback

Created by
  • Haebom
Category
Empty

저자

Michelle Zhao, Reid Simmons, Henny Admoni, Aaditya Ramdas, Andrea Bajcsy

개요

본 논문은 상호작용적 모방 학습(IL)에서 배포 중 발생하는 분포 변화에 대처하기 위해 불확실성 정량화를 활용하는 방법을 제시한다. 기존 방법들은 블랙박스 IL 정책의 불확실성을 정량화하기 위해 앙상블 불일치나 몬테카를로 드롭아웃과 같은 메커니즘을 사용하지만, 배포 시 분포 변화에 직면했을 때 과신뢰 추정으로 이어질 수 있다. 본 논문에서는 배포 시 수집된 전문가(사람)의 피드백을 활용하여 로봇의 불확실성을 온라인으로 적응시키는 불확실성 정량화 알고리즘이 필요하다고 주장한다. 이를 위해, 지상 진실 레이블 스트림이 주어졌을 때 온라인으로 예측 구간을 구성하는 분포-자유 방법인 온라인 콘포멀 예측을 활용한다. 그러나 상호작용적 IL 설정에서 사람의 레이블은 간헐적이다. 따라서 콘포멀 예측 측면에서, 간헐적 레이블의 확률적 모델을 활용하고 점근적 적용 보장을 유지하며 실험적으로 원하는 적용 수준을 달성하는 새로운 불확실성 정량화 알고리즘인 간헐적 분위수 추적(IQT)을 제안한다. 상호작용적 IL 측면에서는 로봇이 IQT에 의해 보정된 예측 구간을 배포 시 불확실성의 신뢰할 수 있는 척도로 사용하여 전문가 피드백을 적극적으로 질의하는 새로운 접근 방식인 ConformalDAgger를 개발한다. 전문가 정책의 변화로 인해 분포 변화가 발생하는(그리고 발생하지 않는) 시나리오에서 기존의 불확실성 인식 DAgger 방법과 ConformalDAgger를 비교한다. 7DOF 로봇 매니퓰레이터에 대한 시뮬레이션 및 하드웨어 배포에서, ConformalDAgger는 전문가가 변화할 때 높은 불확실성을 감지하고 기준선과 비교하여 개입 횟수를 늘려 로봇이 새로운 동작을 더 빠르게 학습할 수 있도록 한다.

시사점, 한계점

시사점:
간헐적인 전문가 피드백이 있는 상호작용적 모방 학습 환경에서 온라인으로 불확실성을 효과적으로 정량화하는 새로운 방법(IQT 및 ConformalDAgger)을 제시.
전문가 정책 변화에 따른 분포 변화를 감지하고 적응적으로 학습을 개선.
시뮬레이션 및 실제 로봇 실험을 통해 ConformalDAgger의 우수성을 검증.
한계점:
IQT 알고리즘의 성능은 간헐적 레이블의 확률적 모델의 정확성에 의존.
실험은 특정 로봇 시스템과 작업에 국한되어 일반화 가능성에 대한 추가 연구 필요.
전문가 피드백의 질과 빈도에 대한 민감도 분석이 추가적으로 필요.
👍