Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Liaison d'images médicales multimodales via des intégrations de texte partagées

Created by
  • Haebom

Auteur

Yunhao Liu, Suyang Xi, Shiqi Liu, Hong Ding, Chicheng Jin, Chong Zhong, Junjun He, Catherine C. Liu, Yiqing Shen

Contour

Cet article présente une méthode d'intégration de caractéristiques issues de plusieurs modalités d'images pour diverses analyses d'images médicales. Les approches CLIP existantes nécessitent des données appariées issues de différentes modalités, ce qui est difficile à obtenir dans les données d'images médicales. Pour y remédier, nous proposons un nouveau cadre de pré-apprentissage, Multimodal Medical Image Binding with Text (M³Bind). M³Bind aligne de manière transparente plusieurs modalités via un espace de représentation textuelle partagé, sans nécessiter de données appariées explicites entre les différentes modalités d'images médicales. Plus précisément, M³Bind peaufine un modèle image-texte pré-entraîné de type CLIP afin d'aligner les espaces d'intégration textuelle de chaque modalité, puis distille les encodeurs de texte spécifiques à chaque modalité en un modèle unifié pour générer un espace d'intégration textuelle partagé. Les résultats expérimentaux sur des images radiographiques X, CT, rétiniennes, ECG et pathologiques démontrent que M³Bind surpasse les modèles de type CLIP pour les tâches de classification à zéro et à quelques clichés et de recherche intermodale.

Takeaways, Limitations_

Takeaways:
Nous présentons un nouveau cadre qui effectue efficacement l’alignement des modalités sans nécessiter de données appariées explicites entre les modalités d’images médicales.
A démontré des performances supérieures par rapport aux modèles CLIP existants dans l'apprentissage à zéro et à quelques coups.
Validation des performances dans diverses modalités d'imagerie médicale (X-ray, CT, rétine, ECG, images de pathologie).
Suggérant une applicabilité efficace dans diverses tâches en aval (classification, recherche intermodale).
Limitations:
Les performances de M³Bind présentées dans cet article sont basées sur des résultats expérimentaux sur un ensemble de données spécifique, et les performances de généralisation sur d'autres ensembles de données ou environnements cliniques nécessitent une validation supplémentaire.
ÉTant donné que le modèle de type CLIP est utilisé comme modèle pré-entraîné, certains aspects dépendent des performances du modèle CLIP.
Il est possible que des problèmes de déséquilibre des données entre différentes modalités et des biais en faveur de modalités spécifiques puissent affecter les performances.
Des recherches et des validations supplémentaires sont nécessaires pour une application clinique pratique.
👍