Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Adaptation du domaine VLM pour la compréhension des vidéos de football

Created by
  • Haebom

Auteur

Tiancheng Jiang, Henry Wang, Md Sirajus Salekin, Parmida Atighehchian, Shinan Zhang

Contour

Cet article présente les résultats d'une étude sur l'adaptabilité spécifique au domaine du Modèle de Langage Visuel (MLV) pour la compréhension vidéo. Considérant que les études précédentes sur le MLV étaient indépendantes du domaine, nous évaluons la capacité d'apprentissage par transfert du MLV pour un domaine spécifique à travers une étude de cas ciblant le football. Nous générons des données de suivi d'instructions à l'aide d'un ensemble de données de football à grande échelle et du MLV, et affinons de manière itérative un MLV de domaine général grâce à l'apprentissage curriculaire. Le modèle final, entraîné à l'aide d'un ensemble de données raffiné composé de 20 000 clips vidéo, montre une amélioration significative des performances par rapport au modèle de base dans les tâches spécifiques au football. En particulier, l'amélioration relative des performances est de 37,5 % dans la tâche de questions-réponses visuelles, et la précision augmente significativement de 11,8 % à 63,5 % dans la tâche de classification des actions de football.

Takeaways, Limitations

Takeaways:
Démonstration expérimentale de l'adaptabilité du VLM ouvert à un domaine spécifique (le football).
Nous présentons une méthode efficace de réglage fin du VLM utilisant des données d’apprentissage du programme et de suivi des instructions.
Améliore considérablement les performances des tâches de questions-réponses visuelles et de classification des actions dans le domaine du football.
Suggère la possibilité d’appliquer le VLM à d’autres domaines spécifiques.
Limitations:
Comme cette étude a été menée dans un seul domaine, le football, des recherches supplémentaires sont nécessaires pour déterminer si elle peut être généralisée à d’autres domaines.
Manque de description détaillée de la taille et de la composition de l’ensemble de données utilisé.
Manque d’analyse comparative avec d’autres modèles VLM.
Manque de discussion sur le coût informatique et l’efficacité de la méthodologie proposée.
👍