CombatVLA는 3D 액션 롤플레잉 게임(ARPG)의 전투 환경에서 실시간 의사결정을 위해 설계된 효율적인 비전-언어-행동(VLA) 모델입니다. 기존 VLA 모델의 한계인 복잡한 3D 환경에서의 실시간 의사결정, 고해상도 인지, 역동적인 상황에서의 전술적 추론 문제를 해결하기 위해, 액션 추적기를 통해 수집된 비디오-행동 쌍을 이용하여 3B 크기의 모델을 학습시켰습니다. 데이터는 행동-사고(AoT) 시퀀스 형태로 구성되며, CombatVLA는 효율적인 추론을 위해 잘린 AoT 전략을 통합한 액션 실행 프레임워크에 통합됩니다. 실험 결과, CombatVLA는 기존 모델들을 능가하는 전투 이해 벤치마크 성능과 50배 향상된 게임 전투 속도를 보여주었으며, 인간 플레이어보다 높은 작업 성공률을 달성했습니다. 모든 리소스(액션 추적기, 데이터셋, 벤치마크, 모델 가중치, 훈련 코드, 프레임워크 구현)는 공개될 예정입니다.