Multi-Agent Inverse Q-Learning from Demonstrations
Created by
Haebom
Category
Empty
저자
Nathaniel Haynam, Adam Khoja, Dhruv Kumar, Vivek Myers, Erdem B{\i}y{\i}k
개요
본 논문은 보상 함수가 수동으로 설계될 때 심층 강화 학습 알고리즘이 보상 오류로 인해 의도된 작업 목표 측면에서 최적이 아닌 정책을 학습하는 문제를 다룹니다. 특히 다중 에이전트 일반 합 게임에서 다중 에이전트 역강화 학습 알고리즘은 협력적 및 경쟁적 목표 간의 균형을 맞추는 데 어려움을 겪습니다. 이를 해결하기 위해 본 논문은 다중 에이전트 한계 Q-학습 (MAMQL)이라는 새로운 샘플 효율적인 다중 에이전트 역강화 학습 프레임워크를 제안합니다. MAMQL은 각 에이전트에 대해 다른 에이전트의 정책에 대해 주변화된 평가자를 학습하여 다중 에이전트 환경에서 볼츠만 정책을 효과적으로 사용할 수 있도록 합니다. 또한 최적의 주변화된 평가자와 단일 에이전트 소프트 Q 역강화 학습 간의 연결을 확인하여 단일 에이전트 영역에서 직접적이고 간단한 최적화 기준을 적용합니다. 세 가지 시뮬레이션 도메인에 대한 실험 결과, MAMQL은 평균 보상, 샘플 효율성 및 보상 복구 측면에서 기존의 다중 에이전트 방법보다 2~5배 이상 성능이 우수함을 보여줍니다. 코드는 https://sites.google.com/view/mamql 에서 공개됩니다.