Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Combining Deep Reinforcement Learning and Search with Generative Models for Game-Theoretic Opponent Modeling

Created by
  • Haebom

저자

Zun Li, Marc Lanctot, Kevin R. McKee, Luke Marris, Ian Gemp, Daniel Hennes, Paul Muller, Kate Larson, Yoram Bachrach, Michael P. Wellman

개요

본 논문은 심층 게임 이론 강화 학습을 이용한 확장 가능하고 일반적인 다중 에이전트 훈련 체계를 제시합니다. 기존의 상대 모델링 방법들이 도메인 특정 휴리스틱과 확장성이 낮은 최적 반응 알고리즘에 의존하는 것과 달리, Monte-Carlo Tree Search (MCTS) 기반의 생성적 최적 반응(GenBR) 알고리즘을 제안합니다. GenBR은 학습된 심층 생성 모델을 사용하여 계획 중 세계 상태를 샘플링하여 대규모 불완전 정보 도메인에서도 확장 가능하며 다양한 다중 에이전트 알고리즘에 플러그 앤 플레이 방식으로 적용 가능합니다. Policy Space Response Oracles (PSRO) 프레임워크 하에서 반복적인 게임 이론적 추론과 집단 기반 훈련을 통해 오프라인 상대 모델을 자동으로 생성하고, 협상 이론 기반의 해결 개념을 사용하여 파레토 최적 프런티어 근처의 프로파일을 식별하여 상대 혼합 모델을 구축합니다. 또한, GenBR을 통해 온라인 상대 모델을 지속적으로 업데이트하고 게임 플레이 중 반응합니다. Deal-or-No-Deal 협상 게임을 통해 인간 참가자와의 행동 연구를 수행하여 제안된 방법의 효과를 검증합니다.

시사점, 한계점

시사점:
대규모 불완전 정보 게임에서 확장 가능한 상대 모델링 방법 제시
심층 생성 모델 기반 MCTS를 이용한 효율적인 최적 반응 알고리즘 (GenBR) 제안
PSRO 프레임워크와 협상 이론 기반의 상대 모델 구축 및 업데이트 전략 제시
인간과의 협상 게임에서 인간 수준의 사회적 복지 및 내쉬 협상 점수 달성
온라인 베이지안 상대 예측 가능
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요
특정 게임 환경에 대한 의존성 및 다른 게임 환경으로의 적용 가능성 검증 필요
더욱 복잡하고 다양한 상대 전략에 대한 로버스트성 평가 필요
계산 비용 및 학습 시간에 대한 분석 필요
👍