Multi-agent cooperation through learning-aware policy gradients
Created by
Haebom
Category
Empty
저자
Alexander Meulemans, Seijin Kobayashi, Johannes von Oswald, Nino Scherrer, Eric Elmoznino, Blake Richards, Guillaume Lajoie, Blaise Aguera y Arcas, Joao Sacramento
개요
본 논문은 이기적인 개체들이 협력하지 못하는 다중 에이전트 학습의 근본적인 문제를 해결하기 위해, 상호 학습 역동성을 모델링하는 학습 인식 에이전트 간의 협력을 연구합니다. 기존 연구들의 한계를 극복하여, 다수의 노이즈가 있는 시행착오를 기반으로 다른 에이전트들이 학습한다는 점을 고려한, 편향되지 않고 고차 도함수가 필요 없는 최초의 학습 인식 강화 학습 정책 경사 알고리즘을 제시합니다. 효율적인 시퀀스 모델을 활용하여 다른 에이전트의 학습 역동성의 흔적을 포함하는 긴 관찰 이력에 행동을 조건화하고, 이 알고리즘으로 장기 맥락 정책을 훈련하여, 시간적으로 확장된 행동 조정이 필요한 어려운 환경을 포함한 표준 사회적 딜레마에서 협력적 행동과 높은 수익을 달성합니다. 마지막으로, 반복되는 죄수의 딜레마에서 이기적인 학습 인식 에이전트 간에 협력이 어떻게 그리고 언제 발생하는지에 대한 새로운 설명을 제시합니다.
시사점, 한계점
•
시사점:
◦
편향되지 않고 고차 도함수가 필요 없는 새로운 학습 인식 강화 학습 알고리즘 제시
◦
장기 관찰 이력을 활용하여 다른 에이전트의 학습 역동성을 고려한 효율적인 협력 학습 방법 제시
◦
시간적으로 확장된 행동 조정이 필요한 복잡한 환경에서도 협력적 행동 및 높은 수익 달성
◦
이기적인 학습 인식 에이전트 간 협력 발생에 대한 새로운 이론적 설명 제시
•
한계점:
◦
제시된 알고리즘의 일반화 성능 및 다양한 환경에 대한 적용 가능성에 대한 추가적인 연구 필요