Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Vers une fusion explicable et un apprentissage équilibré dans l'analyse des sentiments multimodaux

Created by
  • Haebom

Auteur

Miaosen Luo, Yuncheng Jiang, Sijie Mai

Contour

Dans cet article, nous proposons le cadre KAN-MCP pour résoudre les problèmes de manque d'interprétabilité et de déséquilibre modal de l'analyse multimodale des sentiments (MSA). KAN-MCP combine l'interprétabilité des réseaux de Kolmogorov-Arnold (KAN) et la robustesse du cadre Multimodal Clean Pareto (MCPareto). KAN analyse de manière transparente les interactions intermodales par décomposition de fonctions univariées, et MCPareto traite le déséquilibre modal et l'interférence de bruit à l'aide de la méthode DRD-MIB (Dimensionality Reduction and Denoising Modal Information Bottleneck). DRD-MIB réduit la dimensionnalité des caractéristiques et supprime le bruit pour fournir des entrées discriminantes de faible dimension à KAN, réduisant ainsi la complexité de la modélisation et préservant les informations liées aux sentiments. MCPareto utilise la sortie de DRD-MIB pour ajuster dynamiquement les contributions du gradient intermodal afin de garantir une transmission sans perte des signaux auxiliaires et d'atténuer efficacement le déséquilibre modal. En conséquence, KAN-MCP atteint d'excellentes performances sur des ensembles de données de référence tels que CMU-MOSI, CMU-MOSEI et CH-SIMS v2, et fournit une interface de visualisation intuitive grâce à l'architecture interprétable de KAN.

Takeaways, Limitations

Takeaways:
Présentation d'un modèle d'analyse des sentiments multimodal interprétable utilisant la décomposition fonctionnelle univariée de KAN
Résolution des problèmes de déséquilibre modal et de bruit avec DRD-MIB
Excellente validation des performances sur les ensembles de données CMU-MOSI, CMU-MOSEI et CH-SIMS v2
Fournit une interface de visualisation intuitive
Divulgation du code source
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de la méthodologie présentée.
Nécessité d'une évaluation supplémentaire des performances sur différents types de données multimodales
Il est nécessaire de valider son utilité dans des applications concrètes.
👍