본 논문은 비디오 이해를 위한 Vision Language Model (VLM)의 특정 도메인 적응성을 탐구하며, 축구를 사례 연구로 활용합니다. 대규모 축구 데이터셋과 LLM을 이용하여 instruction-following 데이터를 생성하고, 이를 통해 일반 도메인 VLM을 커리큘럼 학습 방식으로 반복적으로 미세 조정합니다. 2만 개의 비디오 클립으로 구성된 큐레이션된 데이터셋을 사용하여 훈련된 최종 모델은 기본 모델에 비해 축구 특화 작업에서 상당한 성능 향상을 보여줍니다. 예를 들어, 시각적 질의응답 작업에서는 37.5%의 상대적 성능 향상을, 축구 동작 분류 작업에서는 정확도가 11.8%에서 63.5%로 향상되었습니다.