Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Un modelo híbrido de CNN-Transformador totalmente convolucional para la detección de enfermedades inherentemente interpretable a partir de imágenes del fondo de ojo de la retina

Created by
  • Haebom

Autor

Kerol Djoumessi, Samuel Ofosu Mensah, Philipp Berens

Describir

Este artículo propone un modelo híbrido interpretable para el análisis de imágenes médicas que combina las capacidades de extracción de características locales de las CNN con las capacidades de captura de dependencias globales de ViT. Para abordar los desafíos de interpretabilidad de los modelos híbridos existentes, desarrollamos una arquitectura CNN-Transformer totalmente convolucional que consideró la interpretabilidad desde la etapa de diseño. Este modelo se aplicó a dos tareas de análisis de imágenes médicas para la detección de enfermedades de la retina, logrando un rendimiento predictivo superior al de los modelos de caja negra e interpretables existentes. Además, genera mapas de evidencia dispersa específicos de cada clase mediante una sola pasada hacia adelante. El código está disponible en GitHub.

Takeaways, Limitations

Takeaways:
Se presenta un modelo híbrido CNN-ViT que considera la interpretabilidad desde la etapa de diseño.
Logre un rendimiento predictivo superior a los modelos de caja negra y modelos interpretables existentes.
Genere mapas de evidencia dispersa específicos de cada clase a través de una única pasada hacia adelante para comprender intuitivamente el proceso de toma de decisiones del modelo.
Contribuir a mejorar la interpretabilidad de los modelos en el campo del análisis de imágenes médicas.
Limitations:
El rendimiento del modelo propuesto se limita a una tarea específica de detección de enfermedades de la retina. Se requiere más investigación para determinar su generalización a otras tareas de análisis de imágenes médicas.
La interpretabilidad del modelo depende del mapa de evidencia presentado y carece de análisis comparativo con otros métodos de interpretación.
Se necesitan más experimentos y comparaciones de rendimiento en varios conjuntos de datos.
👍