Bài báo này đề cập đến thách thức thiếu hụt bộ dữ liệu chất lượng cao do lo ngại về quyền riêng tư, bất chấp sự quan tâm ngày càng tăng đối với việc phát triển các ứng dụng AI trong lĩnh vực chăm sóc sức khỏe. Những tiến bộ trong mô hình ngôn ngữ thị giác (VLM) đã dẫn đến nhu cầu ngày càng tăng về bộ dữ liệu chăm sóc sức khỏe đa phương thức với các báo cáo lâm sàng và ý kiến được đính kèm vào hình ảnh chụp cắt lớp y tế. Bài báo này trình bày quy trình làm việc hoàn chỉnh để xây dựng bộ dữ liệu MedPix 2.0 dựa trên MedPix®, một bộ dữ liệu đa phương thức chủ yếu được sử dụng cho mục đích đào tạo y khoa thường xuyên cho bác sĩ, điều dưỡng và sinh viên y khoa. Một quy trình bán tự động để trích xuất dữ liệu hình ảnh và văn bản, cùng với quy trình quản lý thủ công để loại bỏ các mẫu nhiễu được sử dụng để tạo cơ sở dữ liệu MongoDB. Cùng với bộ dữ liệu, chúng tôi phát triển một giao diện người dùng đồ họa (GUI) để khám phá hiệu quả phiên bản MongoDB và thu thập dữ liệu thô có thể dễ dàng sử dụng cho việc đào tạo và/hoặc tinh chỉnh VLM. Chúng tôi giới thiệu DR-Minerva, một mô hình VLM tăng cường truy xuất được đào tạo bằng MedPix 2.0, và đề xuất một mô hình DR-Minerva mở rộng sử dụng đồ thị tri thức bằng Llama 3.1 Instruct 8B. Kiến trúc kết quả có thể được truy vấn từ đầu đến cuối như một hệ thống hỗ trợ quyết định chăm sóc sức khỏe. MedPix 2.0 có sẵn trên GitHub.