Cet article aborde le problème du manque d'ensembles de données de haute qualité, dû aux préoccupations en matière de confidentialité, malgré l'intérêt croissant pour le développement d'applications d'IA dans le domaine de la santé. Les progrès des modèles de langage visuel (MLV) ont entraîné un besoin croissant d'ensembles de données de santé multimodaux, comprenant des rapports et des avis cliniques joints aux scanners médicaux. Cet article présente le flux de travail complet pour la création de l'ensemble de données MedPix 2.0 basé sur MedPix®, un ensemble de données multimodal principalement utilisé à des fins de formation médicale continue pour les médecins, les infirmières et les étudiants en médecine. Un pipeline semi-automatique d'extraction de données visuelles et textuelles et une procédure de curation manuelle pour la suppression des échantillons de bruit sont utilisés pour créer une base de données MongoDB. Parallèlement à cet ensemble de données, nous développons une interface utilisateur graphique (GUI) permettant d'explorer efficacement l'instance MongoDB et d'obtenir des données brutes facilement exploitables pour l'entraînement et/ou le réglage fin du MLV. Nous présentons DR-Minerva, un modèle VLM génératif augmenté par récupération, entraîné avec MedPix 2.0, et proposons un modèle étendu de DR-Minerva utilisant des graphes de connaissances basés sur Llama 3.1 Instruct 8B. L'architecture résultante peut être interrogée de bout en bout comme un système d'aide à la décision en matière de santé. MedPix 2.0 est disponible sur GitHub.