यह पत्र इस बात पर प्रकाश डालता है कि शारीरिक विविधताओं, विविध इमेजिंग प्रोटोकॉल और सीमित एनोटेशन डेटा के कारण अल्ट्रासाउंड छवियों में सटीक और सामान्यीकृत वस्तु विभाजन चुनौतीपूर्ण है। इस चुनौती का समाधान करने के लिए, हम एक प्रॉम्प्ट-आधारित दृश्य-भाषा मॉडल (वीएलएम) प्रस्तावित करते हैं जो ग्राउंडिंग डीआईएनओ और एसएएम2 को एकीकृत करता है। स्तन, थायरॉयड, यकृत, प्रोस्टेट, गुर्दे और पैरास्पाइनल मांसपेशियों सहित 18 सार्वजनिक रूप से उपलब्ध अल्ट्रासाउंड डेटासेट का उपयोग करते हुए, अल्ट्रासाउंड डोमेन में लो रैंक अडेप्टेशन (LoRA) का उपयोग करके 15 डेटासेट पर ग्राउंडिंग डीआईएनओ को फाइन-ट्यून्ड और मान्य किया गया है। शेष तीन डेटासेट का उपयोग अज्ञात वितरण पर प्रदर्शन का मूल्यांकन करने के लिए परीक्षण के लिए किया जाता है। ये परिणाम स्केलेबल और मज़बूत अल्ट्रासाउंड इमेज विश्लेषण के लिए वीएलएम की संभावनाओं को उजागर करते हैं और सुझाव देते हैं कि यह बड़े पैमाने पर अंग-विशिष्ट एनोटेशन डेटा पर निर्भरता को कम कर सकता है। स्वीकृति के बाद कोड को code.sonography.ai पर प्रकाशित किया जाएगा।