VLM-Attention은 인간의 스타크래프트 II 플레이 경험과 인공 에이전트의 인식을 일치시키는 다중 모달 환경입니다. 기존의 SMAC과 같은 프레임워크는 인간의 인식과 크게 다른 추상적인 상태 표현에 의존하여 에이전트 행동의 생태적 타당성을 제한합니다. VLM-Attention은 RGB 시각 입력과 자연어 관찰을 통합하여 인간의 인지 과정을 더욱 정확하게 시뮬레이션합니다. 세 가지 통합 구성 요소로 이루어져 있습니다: (1) 전략적 유닛 타겟팅 및 전장 평가를 위한 특수 자기 주의 메커니즘으로 향상된 시각-언어 모델, (2) 전술적 의사 결정을 위한 도메인 특정 스타크래프트 II 지식을 활용하는 검색 증강 생성 시스템, (3) 조정된 다중 에이전트 행동을 가능하게 하는 동적 역할 기반 작업 분배 시스템. 21개의 사용자 정의 시나리오에 대한 실험 평가를 통해 Qwen-VL 및 GPT-4o와 같은 기반 모델을 기반으로 하는 VLM 에이전트가 명시적인 훈련 없이도 복잡한 전술적 기동을 수행하고, 상당한 훈련 반복을 필요로 하는 기존 MARL 방법과 비교할 만한 성능을 달성할 수 있음을 보여줍니다. 이 연구는 인간과 일치하는 스타크래프트 II 에이전트를 개발하기 위한 기반을 마련하고 다중 모달 게임 AI의 광범위한 연구 의제를 발전시킵니다.