Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Red multimodal de fusión dinámica para la detección del bienestar del habla

Created by
  • Haebom

Autor

Wenqiang Sun, Han Yin, Jisheng Bai, Jianfeng Chen

Describir

Este artículo propone un sistema ligero, multimodal y multiramificado que integra información de voz y texto para predecir el riesgo de suicidio en adolescentes. A diferencia de estudios previos que se basan únicamente en formas de onda en el dominio temporal, nuestro sistema aprovecha características acústicas y representaciones semánticas tanto en el dominio temporal como en el dominio tiempo-frecuencia. Además, introducimos un bloque de fusión dinámica que ajusta dinámicamente la contribución de cada modalidad, integrando adaptativamente la información de diversas modalidades. Simplificamos los modelos existentes para mejorar la eficiencia computacional, y los resultados experimentales muestran una reducción del 78 % en los parámetros del modelo y una mejora del 5 % en la precisión en comparación con los sistemas existentes. Esta investigación se realizó con base en el reto de detección SpeechWellness.

Takeaways, Limitations

Takeaways:
Sugerir la posibilidad de mejorar el rendimiento de la predicción del riesgo de suicidio en jóvenes a través de la fusión multimodal de información de voz y texto.
Mejora de la precisión del análisis acústico aprovechando la información del dominio del tiempo-frecuencia.
Modulación efectiva de contribuciones específicas de cada modalidad a través de mecanismos de fusión dinámica.
Mayor eficiencia computacional mediante una estructura de modelo liviana.
Limitations:
Este estudio se limita al conjunto de datos de desafío de detección de SpeechWellness, por lo que se requiere una mayor verificación de generalización.
Falta de generalización en la evaluación del desempeño en diversas poblaciones.
El análisis comparativo con otras técnicas de fusión multimodal es limitado.
Falta de discusión sobre las implicaciones éticas de la predicción del riesgo de suicidio.
👍