AVA: Attentive VLM Agent for Mastering StarCraft II
Created by
Haebom
저자
Weiyu Ma, Yuqian Fu, Zecheng Zhang, Bernard Ghanem, Guohao Li
개요
본 논문은 인간의 게임 플레이 경험과 일치하는 다중 모달 StarCraft II 에이전트인 Attentive VLM Agent (AVA)를 소개합니다. 기존의 SMAC과 같은 프레임워크는 인간의 인식과 크게 다른 추상적인 상태 표현에 의존하여 에이전트 행동의 생태적 타당성을 제한합니다. AVA는 RGB 시각 입력과 자연어 관찰을 통합하여 인간의 인지 과정을 더욱 정확하게 시뮬레이션함으로써 이러한 한계를 해결합니다. AVA 아키텍처는 전략적 유닛 타겟팅 및 전투 평가를 위한 특수 자기 주의 메커니즘으로 향상된 시각-언어 모델, 도메인 특정 StarCraft II 지식을 활용하여 전술적 의사 결정을 알리는 검색 증강 생성 시스템, 그리고 조정된 다중 에이전트 행동을 가능하게 하는 동적 역할 기반 작업 분배 시스템의 세 가지 통합 구성 요소로 구성됩니다. 21개의 다중 모달 StarCraft II 시나리오를 포함하는 제안된 AVACraft 환경에서의 실험적 평가는 기초 모델(특히 Qwen-VL 및 GPT-4o)을 기반으로 하는 AVA가 명시적인 훈련 없이 복잡한 전술적 기동을 실행하고 상당한 훈련 반복을 필요로 하는 기존 MARL 방법과 비슷한 성능을 달성할 수 있음을 보여줍니다. 이 연구는 인간과 일치하는 StarCraft II 에이전트를 개발하기 위한 기반을 마련하고 다중 모달 게임 AI의 광범위한 연구 과제를 발전시킵니다. 구현은 https://github.com/camel-ai/VLM-Play-StarCraft2 에서 확인할 수 있습니다.