Arjun V Sudhakar, Hadi Nekoei, Mathieu Reymond, Miao Liu, Janarthanan Rajendran, Sarath Chandar
개요
기존 다중 에이전트 강화 학습(MARL) 시스템은 반복적인 상호작용을 통해 협력 전략을 개발할 수 있지만, 훈련된 환경 외 다른 환경에서는 성능이 저조하며, 낯선 협력자와의 협력에도 어려움을 겪습니다. 특히, 복잡한 추론과 정확한 다른 에이전트에 대한 지원이 필요한 인기 있는 2~5인용 협력 카드 게임인 Hanabi 벤치마크에서 이러한 문제가 두드러집니다. 기존 Hanabi용 MARL 에이전트는 특정 게임 설정(예: 2인용 게임)에서만 학습하고 동일한 알고리즘 에이전트와만 플레이할 수 있습니다. 이는 낯선 파트너나 상황에 빠르게 전략을 조정할 수 있는 사람과는 대조적입니다. 본 논문에서는 이러한 한계를 극복하기 위해 설계된 Hanabi용 일반화 에이전트인 Recurrent Replay Relevance Distributed DQN (R3D2)를 소개합니다. 언어가 전이 학습을 향상시키는 것으로 나타났기 때문에 텍스트를 사용하여 작업을 재구성합니다. 그런 다음 결과적으로 동적인 관찰 및 행동 공간에 대처하는 분산 MARL 알고리즘을 제안합니다. 이를 통해 우리의 에이전트는 모든 게임 설정을 동시에 플레이하고 한 설정에서 학습한 전략을 다른 설정으로 확장할 수 있는 최초의 에이전트가 됩니다. 결과적으로, 우리의 에이전트는 서로 협력할 수 없는 다른 알고리즘 에이전트와 협력하는 능력도 보여줍니다. 구현 코드는 R3D2-A-Generalist-Hanabi-Agent에서 확인할 수 있습니다.