Yanyun-3는 다양한 사용자 인터페이스와 동적 전장 환경으로 인해 어려움을 겪는 크로스 플랫폼 전략 게임 자동화를 위한 시각-언어 모델(VLM) 기반 에이전트입니다. Qwen2.5-VL을 활용한 시각적 추론과 UI-TARS를 활용한 인터페이스 실행을 통합합니다. 정적 이미지, 멀티 이미지 시퀀스, 비디오와 같은 멀티 모달 데이터를 조합하는 새로운 데이터 구성 원리(combination granularity)를 제안합니다. 세 가지 전략 게임 플랫폼에 걸쳐 QLoRA를 사용하여 튜닝되었으며, 최적 전략 (M*V+S)은 BLEU-4 점수에서 12.98배 향상, 추론 시간 63% 감소를 달성했습니다. Yanyun-3는 플랫폼별 튜닝 없이 핵심 작업을 성공적으로 수행하며, 구조화된 멀티 모달 데이터 구성이 VLM 성능을 향상시키는 것을 보여줍니다.