Cet article souligne l'importance d'évaluer la compréhension multimodale pour les modèles audiovisuels, en soulignant les lacunes de l'ensemble de données VGGSound existant (étiquetage incomplet, chevauchement partiel des classes et désalignement des modalités). Nous démontrons que ces lacunes peuvent fausser l'évaluation des capacités auditives et visuelles, et proposons VGGSounder, un ensemble de tests multi-étiquettes entièrement réannoté, pour y remédier. VGGSounder fournit des annotations détaillées des modalités, permettant une analyse des performances spécifiques à chaque modalité. Nous exposons également les limites du modèle en analysant la dégradation des performances du modèle lorsque des modalités d'entrée supplémentaires sont présentes, à l'aide d'une nouvelle mesure de confusion des modalités.