Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

COEF-VQ : Compréhension de la qualité vidéo rentable grâce à un cadre LLM multimodal en cascade

Created by
  • Haebom

Auteur

Xin Dong, Sen Jia, Ming Rui Wang, Yan Li, Zhenheng Yang, Bingfeng Deng, Hongyu Xiong

Contour

Dans cet article, nous proposons COEF-VQ, un nouveau framework en cascade pour la compréhension de la qualité vidéo à l'aide de modèles de langage multimodaux à grande échelle (MLLM). COEF-VQ réduit significativement l'utilisation du GPU tout en préservant les excellentes performances de classification des MLLM en analysant préférentiellement les échantillons à forte incertitude grâce à une étape de préfiltrage entropique. Nous déployons COEF-VQ sur notre plateforme de gestion vidéo (VMP), une plateforme de vidéos courtes, et expérimentons deux tâches internes liées à la compréhension de la qualité vidéo. Les résultats montrent des améliorations significatives des performances lors des évaluations hors ligne et renforcent efficacement la stabilité de la plateforme, notamment en réduisant de 9,9 % le nombre de vidéos à contenu inapproprié lors des tests A/B en ligne. L'amélioration continue des performances a été confirmée par un suivi post-version.

Takeaways, Limitations_

Takeaways:
Nous présentons un nouveau cadre en cascade qui répond efficacement aux besoins élevés en ressources GPU de MLLM.
Le préfiltrage basé sur l'entropie améliore considérablement l'efficacité du calcul tout en maintenant les performances de classification.
En l'appliquant aux plateformes de vidéos courtes actuelles, on contribue à réduire le contenu inapproprié et à améliorer la sécurité de la plateforme.
Validez l’efficacité dans des environnements réels grâce à des tests A/B en ligne.
Limitations:
Les performances du cadre proposé peuvent dépendre des performances des modèles MLLM et de pré-filtrage utilisés.
Les performances de généralisation à des tâches autres que les deux tâches internes utilisées dans cet article nécessitent une étude plus approfondie.
Des recherches supplémentaires pourraient être nécessaires pour déterminer les paramètres optimaux pour le préfiltrage basé sur l’entropie.
En raison de la dépendance aux données internes, la validation de la généralisabilité à d’autres plateformes ou ensembles de données est nécessaire.
👍