전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다. 본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다. 논문에 대한 저작권은 저자 및 해당 기관에 있으며, 요약본 공유 시 출처만 명기하면 됩니다. This service is supported by Google Gemini.
Combining Deep Reinforcement Learning and Search with Generative Models for Game-Theoretic Opponent Modeling
Created by
Haebom
Category
Empty
저자
Zun Li, Marc Lanctot, Kevin R. McKee, Luke Marris, Ian Gemp, Daniel Hennes, Paul Muller, Kate Larson, Yoram Bachrach, Michael P. Wellman
개요
본 논문은 심층 게임 이론 강화 학습을 이용한 확장 가능하고 일반적인 다중 에이전트 훈련 체계를 제시합니다. 기존의 상대 모델링 방법들이 도메인 특정 휴리스틱과 확장성이 낮은 최적 반응 알고리즘에 의존하는 것과 달리, Monte-Carlo Tree Search (MCTS) 기반의 생성적 최적 반응(GenBR) 알고리즘을 제안합니다. GenBR은 학습된 심층 생성 모델을 사용하여 계획 중 세계 상태를 샘플링하여 대규모 불완전 정보 도메인에서도 확장 가능하며 다양한 다중 에이전트 알고리즘에 플러그 앤 플레이 방식으로 적용 가능합니다. Policy Space Response Oracles (PSRO) 프레임워크 하에서 반복적인 게임 이론적 추론과 집단 기반 훈련을 통해 오프라인 상대 모델을 자동으로 생성하고, 협상 이론 기반의 해결 개념을 사용하여 파레토 최적 프런티어 근처의 프로파일을 식별하여 상대 혼합 모델을 구축합니다. 또한, GenBR을 통해 온라인 상대 모델을 지속적으로 업데이트하고 게임 플레이 중 반응합니다. Deal-or-No-Deal 협상 게임을 통해 인간 참가자와의 행동 연구를 수행하여 제안된 방법의 효과를 검증합니다.