VLM-Attention은 인간의 스타크래프트 II 플레이 경험과 인공 에이전트의 인지 능력을 일치시키는 다중 모달 환경입니다. 기존의 SMAC과 같은 프레임워크는 인간의 인지와 크게 차이나는 추상적인 상태 표현에 의존하여 에이전트 행동의 생태학적 타당성을 제한합니다. VLM-Attention은 RGB 시각 입력과 자연어 관찰을 통합하여 인간의 인지 과정을 더욱 정확하게 시뮬레이션합니다. 세 가지 통합 구성 요소로 이루어져 있으며, 전략적 유닛 타겟팅 및 전장 평가를 위한 특수 자기 주의 메커니즘으로 향상된 시각-언어 모델, 도메인 특정 스타크래프트 II 지식을 활용하여 전술적 결정을 내리는 검색 증강 생성 시스템, 그리고 조정된 다중 에이전트 행동을 가능하게 하는 동적 역할 기반 작업 분배 시스템으로 구성됩니다. 21개의 사용자 정의 시나리오에 대한 실험 평가 결과, 기초 모델(Qwen-VL 및 GPT-4o)을 사용하는 VLM 기반 에이전트는 명시적인 훈련 없이 복잡한 전술적 기동을 수행할 수 있으며, 상당한 훈련 반복을 필요로 하는 기존 MARL 방법과 비슷한 성능을 달성했습니다. 이 연구는 인간과 일치하는 스타크래프트 II 에이전트를 개발하기 위한 기반을 마련하고 다중 모달 게임 AI의 광범위한 연구 어젠다를 발전시킵니다.