Este artículo presenta un método para integrar características de múltiples modalidades de imagen para diversos análisis de imágenes médicas. Los enfoques existentes basados en CLIP requieren datos pareados de diferentes modalidades, lo cual es difícil de obtener en datos de imágenes médicas. Para abordar esto, proponemos un novedoso marco de preentrenamiento, Multimodal Medical Image Binding with Text (M³Bind). M³Bind alinea fluidamente múltiples modalidades a través de un espacio de representación de texto compartido sin requerir datos pareados explícitos entre diferentes modalidades de imágenes médicas. Específicamente, M³Bind afina un modelo de imagen-texto tipo CLIP preentrenado para alinear los espacios de incrustación de texto de cada modalidad y luego destila codificadores de texto específicos de la modalidad en un modelo unificado para generar un espacio de incrustación de texto compartido. Los resultados experimentales en imágenes de rayos X, TC, retina, ECG y patología demuestran que M³Bind supera a los modelos tipo CLIP en tareas de clasificación de cero disparos y pocos disparos, y recuperación intermodal.