Este documento aborda el desafío de la falta de conjuntos de datos de alta calidad debido a las preocupaciones sobre la privacidad, a pesar del creciente interés en desarrollar aplicaciones de IA en el ámbito de la salud. Los avances en los modelos de lenguaje de visión (VLM) han llevado a una creciente necesidad de conjuntos de datos de salud multimodales con informes clínicos y opiniones adjuntas a las exploraciones médicas. Este documento presenta el flujo de trabajo completo para construir el conjunto de datos MedPix 2.0 basado en MedPix®, un conjunto de datos multimodal utilizado principalmente para fines de educación médica continua para médicos, enfermeras y estudiantes de medicina. Una tubería semiautomática para extraer datos visuales y textuales y un procedimiento de curación manual para eliminar muestras de ruido se utilizan para crear una base de datos MongoDB. Junto con el conjunto de datos, desarrollamos una interfaz gráfica de usuario (GUI) para explorar eficientemente la instancia de MongoDB y obtener datos sin procesar que se pueden usar fácilmente para el entrenamiento y/o ajuste del VLM. Presentamos DR-Minerva, un modelo VLM generativo de recuperación aumentada entrenado con MedPix 2.0, y proponemos un modelo extendido de DR-Minerva que utiliza grafos de conocimiento mediante Llama 3.1 Instruct 8B. La arquitectura resultante puede consultarse de principio a fin como un sistema de apoyo a la toma de decisiones sanitarias. MedPix 2.0 está disponible en GitHub.