Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Vinculación de imágenes médicas multimodales mediante incrustaciones de texto compartidas

Created by
  • Haebom

Autor

Yunhao Liu, Suyang Xi, Shiqi Liu, Hong Ding, Chicheng Jin, Chong Zhong, Junjun He, Catherine C. Liu, Yiqing Shen

Describir

Este artículo presenta un método para integrar características de múltiples modalidades de imagen para diversos análisis de imágenes médicas. Los enfoques existentes basados ​​en CLIP requieren datos pareados de diferentes modalidades, lo cual es difícil de obtener en datos de imágenes médicas. Para abordar esto, proponemos un novedoso marco de preentrenamiento, Multimodal Medical Image Binding with Text (M³Bind). M³Bind alinea fluidamente múltiples modalidades a través de un espacio de representación de texto compartido sin requerir datos pareados explícitos entre diferentes modalidades de imágenes médicas. Específicamente, M³Bind afina un modelo de imagen-texto tipo CLIP preentrenado para alinear los espacios de incrustación de texto de cada modalidad y luego destila codificadores de texto específicos de la modalidad en un modelo unificado para generar un espacio de incrustación de texto compartido. Los resultados experimentales en imágenes de rayos X, TC, retina, ECG y patología demuestran que M³Bind supera a los modelos tipo CLIP en tareas de clasificación de cero disparos y pocos disparos, y recuperación intermodal.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo marco que realiza eficazmente la alineación de modalidades sin requerir datos explícitos emparejados entre modalidades de imágenes médicas.
Se demostró un rendimiento superior al de los modelos basados ​​en CLIP existentes en el aprendizaje de cero disparos y de pocos disparos.
Validación del desempeño en diversas modalidades de imágenes médicas (X-rayos, TC, retina, ECG, imágenes de patología).
Sugiere una aplicabilidad efectiva en varias tareas posteriores (clasificación, búsqueda intermodal).
Limitations:
El rendimiento de M³Bind presentado en este artículo se basa en resultados experimentales en un conjunto de datos específico, y el rendimiento de generalización en otros conjuntos de datos o entornos clínicos requiere verificación adicional.
Dado que el modelo tipo CLIP se utiliza como un modelo preentrenado, hay aspectos que dependen del rendimiento del modelo CLIP.
Existe la posibilidad de que problemas de desequilibrio de datos entre diferentes modalidades y sesgos hacia modalidades específicas puedan afectar el desempeño.
Se necesitan investigaciones y validaciones adicionales para la aplicación clínica práctica.
👍