Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Learning What to Do and What Not To Do: Offline Imitation from Expert and Undesirable Demonstrations

Created by
  • Haebom

저자

Huy Hoang, Tien Mai, Pradeep Varakantham, Tanvi Verma

개요

본 논문은 전문가의 시범과 명시적으로 바람직하지 않은 행동 모두를 포함하는 데이터셋을 사용하여 대조적인 행동으로부터 오프라인 모방 학습을 연구합니다. 전문가와 바람직하지 않은 데이터의 상태-행동 방문 분포에 대한 KL 발산 차이를 최적화하는 새로운 공식을 제안합니다. 결과적인 목적 함수는 DC(Difference-of-Convex) 프로그래밍이지만, 전문가 시범이 바람직하지 않은 시범보다 많을 때 볼록해짐을 증명하여 실용적이고 안정적인 비대립적 훈련 목적 함수를 가능하게 합니다. 이 방법은 대립적 훈련을 피하고 긍정적 및 부정적 시범 모두를 통합된 프레임워크에서 처리합니다. 표준 오프라인 모방 학습 벤치마크에 대한 광범위한 실험을 통해 제안된 접근 방식이 최첨단 기준 모델보다 일관되게 우수한 성능을 보임을 보여줍니다.

시사점, 한계점

시사점:
전문가와 바람직하지 않은 행동 데이터를 모두 활용하여 오프라인 모방 학습 성능 향상.
비대립적 훈련 방식으로 안정적이고 실용적인 학습 가능.
긍정적 및 부정적 데이터를 통합적으로 처리하는 새로운 프레임워크 제시.
다양한 벤치마크에서 최첨단 성능 달성.
한계점:
전문가 시범이 바람직하지 않은 시범보다 많아야 볼록 함수가 되는 조건 존재.
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
실제 환경에서의 적용 가능성 및 안전성에 대한 추가적인 검증 필요.
👍