Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

VGGSounder : Évaluations audiovisuelles pour modèles de fondation

Created by
  • Haebom

Auteur

Daniil Zverev, Thadd aus Wiedemer, Ameya Prabhu, Matthias Bethge, Wieland Brendel, A. Sophia Koepke

Contour

Cet article souligne l'importance d'évaluer la compréhension multimodale pour les modèles audiovisuels, en soulignant les lacunes de l'ensemble de données VGGSound existant (étiquetage incomplet, chevauchement partiel des classes et désalignement des modalités). Nous démontrons que ces lacunes peuvent fausser l'évaluation des capacités auditives et visuelles, et proposons VGGSounder, un ensemble de tests multi-étiquettes entièrement réannoté, pour y remédier. VGGSounder fournit des annotations détaillées des modalités, permettant une analyse des performances spécifiques à chaque modalité. Nous exposons également les limites du modèle en analysant la dégradation des performances du modèle lorsque des modalités d'entrée supplémentaires sont présentes, à l'aide d'une nouvelle mesure de confusion des modalités.

Takeaways, Limitations

Takeaways:
VGGSounder, un nouvel ensemble de données de base pour évaluer la compréhension multimodale des modèles audiovisuels, est présenté.
VGGSounder permet une analyse des performances spécifique à la modalité et une analyse du modèle Limitations.
Une évaluation précise du modèle est possible grâce à une nouvelle mesure de confusion des modalités.
Limitations:
Une validation supplémentaire de l’échelle et des performances de généralisation de l’ensemble de données VGGSounder est nécessaire.
Des recherches supplémentaires sont nécessaires pour déterminer la généralité et la validité de l’indice de mesure de confusion des modalités proposé.
👍