Hierarchical Imitation Learning of Team Behavior from Heterogeneous Demonstrations

작성자

Haebom

카테고리

비어 있음

저자

Sangwon Seo, Vaibhav Unhelkar

개요

본 논문은 복잡한 순차적 작업에서 성공적인 협업을 위한 다중 에이전트 시스템 및 인간-AI 팀 개발을 목표로 한다. 실세계 제약(부분 관측 가능성, 제한된 통신 대역폭)으로 인해 최적이 아닌 협업이 발생하는 문제를 해결하고자, 다양한 팀 행동을 데이터 기반으로 학습하는 방법을 제시한다. 기존의 다중 에이전트 모방 학습(MAIL)은 단일 팀 정책에서 나온 시범 데이터만을 가정하므로 이질적인 시범 데이터를 다루는 데 어려움을 겪는다. 본 논문에서는 계층적 MAIL 알고리즘인 DTIL을 제안하여 이질적인 팀 시범 데이터로부터 계층적 정책을 요인화하여 학습함으로써 다양한 팀 행동을 학습한다. 분포 일치 접근 방식을 사용하여 오류 누적을 완화하고 긴 수평선과 연속 상태 표현으로 효과적으로 확장한다. 실험 결과, DTIL은 기존 MAIL 기준 모델보다 성능이 우수하며 다양한 협업 시나리오에서 팀 행동을 정확하게 모델링함을 보여준다.