Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Descubra descripciones de múltiples imágenes para la detección del deterioro cognitivo leve multilingüe mediante aprendizaje contrastivo

Created by
  • Haebom

Autor

Kristin Qi, Jiali Cheng, Youxiang Zhu, Hadi Amiri, Xiaohui Liang

Describir

Este artículo aborda los desafíos de detectar el deterioro cognitivo leve (DCL) mediante descripciones de imágenes en entornos multilingües y con múltiples imágenes. Si bien las investigaciones anteriores se han centrado principalmente en descripciones de una sola imagen para hablantes de inglés, este artículo propone un marco basado en el desafío TAUKDIAL-2024, que incluye usuarios multilingües y múltiples imágenes. Este marco consta de tres componentes: mejorar el aprendizaje de la representación discriminativa mediante aprendizaje contrastivo supervisado, aprovechar la modalidad de la imagen y mitigar las correlaciones espurias y el sobreajuste mediante una estrategia de producto de expertos (PoE). El marco propuesto demuestra una mejora del 7,1 % en el recuerdo promedio no ponderado (UAR) (del 68,1 % al 75,2 %) y una mejora del 2,9 % en la puntuación F1 (del 80,6 % al 83,5 %) en comparación con una línea base unimodal de texto. El componente de aprendizaje contrastivo, en particular, produce mayores mejoras para el texto que para el habla.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo marco que contribuye a mejorar el rendimiento de detección de MCI en entornos multilingües y multiimagen.
Demostrar empíricamente la eficacia del aprendizaje contrastivo supervisado, la utilización de la modalidad de imagen y las estrategias PoE.
Enfatiza la importancia del aprendizaje contrastivo en las modalidades de texto.
Limitations:
Dependencia del conjunto de datos del desafío TAUKDIAL-2024. Es necesario verificar su generalización a otros conjuntos de datos.
Falta de análisis en profundidad de las interacciones entre cada componente del marco propuesto.
Se necesitan más investigaciones para determinar la aplicabilidad y generalización en entornos clínicos reales.
👍