Bài báo này trình bày một phương pháp tích hợp các đặc điểm từ nhiều phương thức hình ảnh để phân tích hình ảnh y tế đa dạng. Các phương pháp tiếp cận dựa trên CLIP hiện có yêu cầu dữ liệu ghép nối trên các phương thức khác nhau, điều này khó có được trong dữ liệu hình ảnh y tế. Để giải quyết vấn đề này, chúng tôi đề xuất một khuôn khổ tiền đào tạo mới, Liên kết hình ảnh y tế đa phương thức với văn bản (M³Bind). M³Bind liên kết liền mạch nhiều phương thức thông qua một không gian biểu diễn văn bản được chia sẻ mà không yêu cầu dữ liệu ghép nối rõ ràng giữa các phương thức hình ảnh y tế khác nhau. Cụ thể, M³Bind tinh chỉnh một mô hình hình ảnh-văn bản giống CLIP đã được đào tạo trước để căn chỉnh các không gian nhúng văn bản của từng phương thức và sau đó chắt lọc các bộ mã hóa văn bản cụ thể của phương thức thành một mô hình thống nhất để tạo ra một không gian nhúng văn bản được chia sẻ. Kết quả thử nghiệm trên hình ảnh tia X, CT, võng mạc, ECG và bệnh lý chứng minh rằng M³Bind hoạt động tốt hơn các mô hình giống CLIP trong các tác vụ phân loại không chụp và ít chụp và truy xuất liên phương thức.