Este artículo propone un marco multimodal para el reconocimiento de emociones en el habla. Integra un modelo acústico basado en wav2vec2.0 y un modelo de análisis de sentimientos basado en RoBERTa-XLM (utilizando transcripciones de Whisper-large-v3), combinando resultados de predicción de voz y texto mediante la selección de puntuaciones basada en entropía. Para superar las limitaciones de fiabilidad de la predicción del flujo principal, proponemos un método de fusión de puntuaciones tardías basado en umbrales de entropía y varentropía. Una estrategia de mapeo de sentimientos que convierte tres categorías de emociones en cuatro clases de emociones objetivo permite la integración consistente de predicciones multimodales. Los resultados de los conjuntos de datos IEMOCAP y MSP-IMPROV demuestran que el método propuesto proporciona mejoras prácticas y fiables con respecto a los sistemas unimodales existentes.