본 논문은 비디오 이해를 위한 Vision Language Model (VLM)의 특정 도메인 적응성을 연구한 결과를 제시합니다. 기존의 VLM 연구가 도메인에 무관하게 진행된 점을 지적하며, 축구 영역을 대상으로 한 사례 연구를 통해 특정 도메인에 대한 VLM의 전이 학습 능력을 평가했습니다. 대규모 축구 데이터셋과 LLM을 활용하여 instruction-following 데이터를 생성하고, curriculum learning 방식으로 일반 도메인 VLM을 반복적으로 미세 조정했습니다. 2만 개의 비디오 클립으로 구성된 정제된 데이터셋을 사용하여 훈련된 최종 모델은 기본 모델에 비해 축구 특화 작업에서 상당한 성능 향상을 보였습니다. 특히, 시각적 질의응답 작업에서는 37.5%의 상대적 성능 향상을, 축구 행동 분류 작업에서는 정확도가 11.8%에서 63.5%로 크게 증가했습니다.