Cet article présente les résultats d'une étude sur l'adaptabilité spécifique au domaine du Modèle de Langage Visuel (MLV) pour la compréhension vidéo. Considérant que les études précédentes sur le MLV étaient indépendantes du domaine, nous évaluons la capacité d'apprentissage par transfert du MLV pour un domaine spécifique à travers une étude de cas ciblant le football. Nous générons des données de suivi d'instructions à l'aide d'un ensemble de données de football à grande échelle et du MLV, et affinons de manière itérative un MLV de domaine général grâce à l'apprentissage curriculaire. Le modèle final, entraîné à l'aide d'un ensemble de données raffiné composé de 20 000 clips vidéo, montre une amélioration significative des performances par rapport au modèle de base dans les tâches spécifiques au football. En particulier, l'amélioration relative des performances est de 37,5 % dans la tâche de questions-réponses visuelles, et la précision augmente significativement de 11,8 % à 63,5 % dans la tâche de classification des actions de football.