Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Reconocimiento de emociones del habla mediante selección de puntuación consciente de la entropía

Created by
  • Haebom

Autor

ChenYi Chua, JunKai Wong, Chengxin Chen, Xiaoxiao Miao

Describir

Este artículo propone un marco multimodal para el reconocimiento de emociones en el habla. Integra un modelo acústico basado en wav2vec2.0 y un modelo de análisis de sentimientos basado en RoBERTa-XLM (utilizando transcripciones de Whisper-large-v3), combinando resultados de predicción de voz y texto mediante la selección de puntuaciones basada en entropía. Para superar las limitaciones de fiabilidad de la predicción del flujo principal, proponemos un método de fusión de puntuaciones tardías basado en umbrales de entropía y varentropía. Una estrategia de mapeo de sentimientos que convierte tres categorías de emociones en cuatro clases de emociones objetivo permite la integración consistente de predicciones multimodales. Los resultados de los conjuntos de datos IEMOCAP y MSP-IMPROV demuestran que el método propuesto proporciona mejoras prácticas y fiables con respecto a los sistemas unimodales existentes.

Takeaways, Limitations

Takeaways:
Sugerimos la posibilidad de mejorar el rendimiento del reconocimiento de emociones de voz combinando eficazmente la información de voz y texto.
Superar las restricciones de confiabilidad y presentar una estrategia de integración eficiente para la predicción multimodal a través de la selección de puntajes basada en la entropía.
Demostramos mejoras de rendimiento sobre los sistemas monomodales existentes en los conjuntos de datos IEMOCAP y MSP-IMPROV.
Limitations:
Se requiere una mayor validación del rendimiento de generalización del método propuesto. Se carece de resultados experimentales en diversos conjuntos de datos e idiomas.
Se requiere un análisis más profundo para determinar la idoneidad de la estrategia de mapeo de emociones. También debe examinarse su aplicabilidad a otros sistemas de clasificación de emociones.
Hay algunas partes que dependen de modelos específicos (wav2vec2.0, RoBERTa-XLM, Whisper-large-v3), por lo que es necesario revisar la escalabilidad a otros modelos.
👍