Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Generalist Hanabi Agent

Created by
  • Haebom
Category
Empty

저자

Arjun V Sudhakar, Hadi Nekoei, Mathieu Reymond, Miao Liu, Janarthanan Rajendran, Sarath Chandar

개요

기존 다중 에이전트 강화 학습(MARL) 시스템은 반복적인 상호작용을 통해 협력 전략을 개발할 수 있지만, 훈련된 환경 외 다른 환경에서는 성능이 저조하며, 낯선 협력자와의 협력에도 어려움을 겪습니다. 특히, 복잡한 추론과 정확한 다른 에이전트에 대한 지원이 필요한 인기 있는 2~5인용 협력 카드 게임인 Hanabi 벤치마크에서 이러한 문제가 두드러집니다. 기존 Hanabi용 MARL 에이전트는 특정 게임 설정(예: 2인용 게임)에서만 학습하고 동일한 알고리즘 에이전트와만 플레이할 수 있습니다. 이는 낯선 파트너나 상황에 빠르게 전략을 조정할 수 있는 사람과는 대조적입니다. 본 논문에서는 이러한 한계를 극복하기 위해 설계된 Hanabi용 일반화 에이전트인 Recurrent Replay Relevance Distributed DQN (R3D2)를 소개합니다. 언어가 전이 학습을 향상시키는 것으로 나타났기 때문에 텍스트를 사용하여 작업을 재구성합니다. 그런 다음 결과적으로 동적인 관찰 및 행동 공간에 대처하는 분산 MARL 알고리즘을 제안합니다. 이를 통해 우리의 에이전트는 모든 게임 설정을 동시에 플레이하고 한 설정에서 학습한 전략을 다른 설정으로 확장할 수 있는 최초의 에이전트가 됩니다. 결과적으로, 우리의 에이전트는 서로 협력할 수 없는 다른 알고리즘 에이전트와 협력하는 능력도 보여줍니다. 구현 코드는 R3D2-A-Generalist-Hanabi-Agent에서 확인할 수 있습니다.

시사점, 한계점

시사점:
Hanabi 게임에서 다양한 설정과 낯선 에이전트와의 협력이 가능한 최초의 일반화 에이전트 R3D2를 제시.
텍스트 기반의 작업 재구성을 통해 전이 학습 성능 향상.
분산 MARL 알고리즘을 통해 동적인 관찰 및 행동 공간에 효과적으로 대처.
다양한 게임 설정에서 학습된 전략을 다른 설정에 적용 가능.
서로 협력할 수 없는 다른 알고리즘 에이전트와의 협력 가능.
한계점:
R3D2의 성능 및 일반화 능력에 대한 추가적인 실험 및 분석 필요.
다른 협력 게임이나 복잡한 환경으로의 확장 가능성에 대한 추가 연구 필요.
텍스트 기반의 작업 재구성이 모든 유형의 협력 게임에 적용 가능한지에 대한 검증 필요.
분산 MARL 알고리즘의 계산 비용 및 효율성에 대한 추가 연구 필요.
👍