Cet article propose un cadre multimodal pour la reconnaissance des émotions vocales. Il intègre un modèle acoustique basé sur wav2vec2.0 et un modèle d'analyse des sentiments basé sur RoBERTa-XLM (utilisant les transcriptions de Whisper-large-v3), combinant les résultats de prédiction de la parole et du texte grâce à une sélection de scores basée sur l'entropie. Pour surmonter les contraintes de fiabilité de la prédiction du pipeline principal, nous proposons une méthode de fusion tardive des scores basée sur des seuils d'entropie et de varentropie. Une stratégie de cartographie des sentiments convertissant trois catégories d'émotions en quatre classes d'émotions cibles permet une intégration cohérente des prédictions multimodales. Les résultats obtenus sur les jeux de données IEMOCAP et MSP-IMPROV démontrent que la méthode proposée apporte des améliorations pratiques et fiables par rapport aux systèmes monomodaux existants.