Combining Deep Reinforcement Learning and Search with Generative Models for Game-Theoretic Opponent Modeling
Created by
Haebom
저자
Zun Li, Marc Lanctot, Kevin R. McKee, Luke Marris, Ian Gemp, Daniel Hennes, Paul Muller, Kate Larson, Yoram Bachrach, Michael P. Wellman
개요
본 논문은 심층 게임 이론 강화 학습을 이용한 확장 가능하고 일반적인 다중 에이전트 훈련 체계를 제시합니다. 기존의 상대 모델링 방법들이 도메인 특정 휴리스틱과 확장성이 낮은 최적 반응 알고리즘에 의존하는 것과 달리, Monte-Carlo Tree Search (MCTS) 기반의 생성적 최적 반응(GenBR) 알고리즘을 제안합니다. GenBR은 학습된 심층 생성 모델을 사용하여 계획 중 세계 상태를 샘플링하여 대규모 불완전 정보 도메인에서도 확장 가능하며 다양한 다중 에이전트 알고리즘에 플러그 앤 플레이 방식으로 적용 가능합니다. Policy Space Response Oracles (PSRO) 프레임워크 하에서 반복적인 게임 이론적 추론과 집단 기반 훈련을 통해 오프라인 상대 모델을 자동으로 생성하고, 협상 이론 기반의 해결 개념을 사용하여 파레토 최적 프런티어 근처의 프로파일을 식별하여 상대 혼합 모델을 구축합니다. 또한, GenBR을 통해 온라인 상대 모델을 지속적으로 업데이트하고 게임 플레이 중 반응합니다. Deal-or-No-Deal 협상 게임을 통해 인간 참가자와의 행동 연구를 수행하여 제안된 방법의 효과를 검증합니다.