Sign In

Multi-Agent Inverse Q-Learning from Demonstrations

Created by
  • Haebom
Category
Empty

저자

Nathaniel Haynam, Adam Khoja, Dhruv Kumar, Vivek Myers, Erdem B{\i}y{\i}k

개요

본 논문은 보상 함수가 수동으로 설계될 때 심층 강화 학습 알고리즘이 보상 오류로 인해 의도된 작업 목표 측면에서 최적이 아닌 정책을 학습하는 문제를 다룹니다. 특히 다중 에이전트 일반 합 게임에서 다중 에이전트 역강화 학습 알고리즘은 협력적 및 경쟁적 목표 간의 균형을 맞추는 데 어려움을 겪습니다. 이를 해결하기 위해 본 논문은 다중 에이전트 한계 Q-학습 (MAMQL)이라는 새로운 샘플 효율적인 다중 에이전트 역강화 학습 프레임워크를 제안합니다. MAMQL은 각 에이전트에 대해 다른 에이전트의 정책에 대해 주변화된 평가자를 학습하여 다중 에이전트 환경에서 볼츠만 정책을 효과적으로 사용할 수 있도록 합니다. 또한 최적의 주변화된 평가자와 단일 에이전트 소프트 Q 역강화 학습 간의 연결을 확인하여 단일 에이전트 영역에서 직접적이고 간단한 최적화 기준을 적용합니다. 세 가지 시뮬레이션 도메인에 대한 실험 결과, MAMQL은 평균 보상, 샘플 효율성 및 보상 복구 측면에서 기존의 다중 에이전트 방법보다 2~5배 이상 성능이 우수함을 보여줍니다. 코드는 https://sites.google.com/view/mamql 에서 공개됩니다.

시사점, 한계점

시사점:
다중 에이전트 역강화 학습에서 보상 오류 문제를 효과적으로 해결하는 새로운 프레임워크 MAMQL 제시.
기존 방법 대비 평균 보상, 샘플 효율성, 보상 복구 성능에서 상당한 향상을 보임.
단일 에이전트 소프트 Q 역강화 학습과의 연결을 통해 단순하고 효율적인 최적화 기준 제시.
다중 에이전트 환경에서 볼츠만 정책의 효과적인 활용 방안 제시.
한계점:
제시된 실험은 시뮬레이션 환경에 국한됨. 실제 세계 문제에 대한 적용 가능성은 추가 연구가 필요.
복잡한 다중 에이전트 환경에서의 확장성에 대한 추가적인 검증 필요.
다양한 유형의 다중 에이전트 게임에 대한 일반화 성능 평가 필요.
👍