यह पत्र स्वास्थ्य सेवा क्षेत्र में एआई अनुप्रयोगों के विकास में बढ़ती रुचि के बावजूद गोपनीयता की चिंताओं के कारण उच्च गुणवत्ता वाले डेटासेट की कमी की चुनौती को संबोधित करता है। विज़न लैंग्वेज मॉडल (वीएलएम) में प्रगति ने नैदानिक रिपोर्ट और राय के साथ मल्टीमॉडल हेल्थकेयर डेटासेट की बढ़ती आवश्यकता को जन्म दिया है जो मेडिकल स्कैन से जुड़े होते हैं। यह पत्र मेडपिक्स® पर आधारित मेडपिक्स 2.0 डेटासेट के निर्माण के लिए संपूर्ण वर्कफ़्लो प्रस्तुत करता है, जो एक मल्टीमॉडल डेटासेट है जिसका उपयोग मुख्य रूप से चिकित्सकों, नर्सों और मेडिकल छात्रों के लिए सतत चिकित्सा शिक्षा उद्देश्यों के लिए किया जाता है। दृश्य और पाठ्य डेटा निकालने के लिए एक अर्ध-स्वचालित पाइपलाइन और शोर के नमूनों को हटाने के लिए एक मैनुअल क्यूरेशन प्रक्रिया का उपयोग MongoDB डेटाबेस बनाने के लिए किया जाता है। हम DR-Minerva, एक पुनर्प्राप्ति संवर्धित जनरेटिव VLM मॉडल प्रस्तुत करते हैं जिसे MedPix 2.0 का उपयोग करके प्रशिक्षित किया गया है, और Llama 3.1 Instruct 8B का उपयोग करके ज्ञान ग्राफ़ का उपयोग करते हुए DR-Minerva का एक विस्तारित मॉडल प्रस्तावित करते हैं। परिणामी आर्किटेक्चर को स्वास्थ्य सेवा निर्णय सहायता प्रणाली के रूप में एंड-टू-एंड क्वेरी किया जा सकता है। MedPix 2.0 GitHub पर उपलब्ध है।