Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Reconnaissance des émotions vocales via la sélection de scores tenant compte de l'entropie

Created by
  • Haebom

Auteur

ChenYi Chua, JunKai Wong, Chengxin Chen, Xiaoxiao Miao

Contour

Cet article propose un cadre multimodal pour la reconnaissance des émotions vocales. Il intègre un modèle acoustique basé sur wav2vec2.0 et un modèle d'analyse des sentiments basé sur RoBERTa-XLM (utilisant les transcriptions de Whisper-large-v3), combinant les résultats de prédiction de la parole et du texte grâce à une sélection de scores basée sur l'entropie. Pour surmonter les contraintes de fiabilité de la prédiction du pipeline principal, nous proposons une méthode de fusion tardive des scores basée sur des seuils d'entropie et de varentropie. Une stratégie de cartographie des sentiments convertissant trois catégories d'émotions en quatre classes d'émotions cibles permet une intégration cohérente des prédictions multimodales. Les résultats obtenus sur les jeux de données IEMOCAP et MSP-IMPROV démontrent que la méthode proposée apporte des améliorations pratiques et fiables par rapport aux systèmes monomodaux existants.

Takeaways, Limitations

Takeaways:
Suggérant la possibilité d'améliorer les performances de reconnaissance des émotions vocales en combinant efficacement les informations vocales et textuelles.
Surmonter les contraintes de fiabilité et présenter une stratégie d'intégration efficace pour la prédiction multimodale grâce à la sélection de scores basée sur l'entropie.
Nous démontrons des améliorations de performances par rapport aux systèmes monomodaux existants sur les ensembles de données IEMOCAP et MSP-IMPROV.
Limitations:
Une validation supplémentaire des performances de généralisation de la méthode proposée est nécessaire. Les résultats expérimentaux sur divers ensembles de données et langages font défaut.
Des analyses plus approfondies sont nécessaires pour déterminer la pertinence de la stratégie de cartographie des émotions. Son applicabilité à d'autres systèmes de classification des émotions devrait également être examinée.
Certaines parties dépendent de modèles spécifiques (wav2vec2.0, RoBERTa-XLM, Whisper-large-v3), l'évolutivité vers d'autres modèles doit donc être revue.
👍