Yanyun-3는 다양한 사용자 인터페이스와 동적 전장 환경에서 견고한 일반화를 보이는 에이전트 프레임워크로, 세 가지 이질적인 전략 게임 환경에서 자율적인 크로스 플랫폼 작동을 최초로 가능하게 합니다. Qwen2.5-VL의 시각-언어 추론과 UI-TARS의 정확한 실행 능력을 통합하여 목표 위치 파악, 전투 자원 할당, 지역 통제와 같은 핵심 작업을 수행합니다. 정적 이미지, 다중 이미지 시퀀스, 비디오 등 다양한 멀티모달 데이터 조합의 효과를 평가하고, intra-sample 융합과 inter-sample 혼합 전략을 구분하기 위한 조합 세분성 개념을 제안합니다. 하이브리드 전략(MV+S)은 전체 융합보다 63%의 추론 시간 감소와 BLEU-4 점수 12배 향상을 보였습니다. 실시간 성능과 크로스 플랫폼 일반화를 보이며, 구조화된 멀티모달 데이터 구성을 통해 VLM 성능을 향상시키는 일반적인 패러다임을 확립합니다.