Cet article présente une méthode d'intégration de caractéristiques issues de plusieurs modalités d'images pour diverses analyses d'images médicales. Les approches CLIP existantes nécessitent des données appariées issues de différentes modalités, ce qui est difficile à obtenir dans les données d'images médicales. Pour y remédier, nous proposons un nouveau cadre de pré-apprentissage, Multimodal Medical Image Binding with Text (M³Bind). M³Bind aligne de manière transparente plusieurs modalités via un espace de représentation textuelle partagé, sans nécessiter de données appariées explicites entre les différentes modalités d'images médicales. Plus précisément, M³Bind peaufine un modèle image-texte pré-entraîné de type CLIP afin d'aligner les espaces d'intégration textuelle de chaque modalité, puis distille les encodeurs de texte spécifiques à chaque modalité en un modèle unifié pour générer un espace d'intégration textuelle partagé. Les résultats expérimentaux sur des images radiographiques X, CT, rétiniennes, ECG et pathologiques démontrent que M³Bind surpasse les modèles de type CLIP pour les tâches de classification à zéro et à quelques clichés et de recherche intermodale.