Bài báo này trình bày một phương pháp mới để tạo ra hình ảnh y tế động, có thể mở rộng và chính xác từ mô tả văn bản, giải quyết thách thức MEDVQA-GI. Để khắc phục những hạn chế của các phương pháp hiện có (phân tích hình ảnh tĩnh và thiếu khả năng tạo hình ảnh y tế động từ mô tả văn bản), chúng tôi đã tích hợp các mô hình Stable Diffusion và DreamBooth được tinh chỉnh với Low-Rank Adaptation (LORA) để tạo ra hình ảnh y tế chất lượng cao. Hệ thống bao gồm hai nhiệm vụ phụ: Tổng hợp hình ảnh (IS) và Tạo dấu nhắc tối ưu (OPG). Kết quả đánh giá cho thấy Stable Diffusion tạo ra hình ảnh chất lượng cao hơn và đa dạng hơn CLIP và DreamBooth + LORA. Cụ thể, nó đạt được điểm FID thấp nhất (0,099 đối với một trung tâm, 0,064 đối với nhiều trung tâm và 0,067 đối với kết hợp) và Điểm khởi đầu cao nhất (trung bình trên các tập dữ liệu, 2,327). Thành tựu này được kỳ vọng sẽ góp phần vào sự tiến bộ của chẩn đoán y tế dựa trên AI.