दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

DINO-US-SAM का आधार: LoRA-ट्यून्ड विज़न-लैंग्वेज मॉडल के साथ अल्ट्रासाउंड में टेक्स्ट-प्रॉम्प्टेड मल्टी-ऑर्गन सेगमेंटेशन

Created by
  • Haebom

लेखक

हमजा रासाई, ताहा कोलीलाट, हसन रिवाज़

रूपरेखा

यह पत्र इस बात पर प्रकाश डालता है कि शारीरिक विविधताओं, विविध इमेजिंग प्रोटोकॉल और सीमित एनोटेशन डेटा के कारण अल्ट्रासाउंड छवियों में सटीक और सामान्यीकृत वस्तु विभाजन चुनौतीपूर्ण है। इस चुनौती का समाधान करने के लिए, हम एक प्रॉम्प्ट-आधारित दृश्य-भाषा मॉडल (वीएलएम) प्रस्तावित करते हैं जो ग्राउंडिंग डीआईएनओ और एसएएम2 को एकीकृत करता है। स्तन, थायरॉयड, यकृत, प्रोस्टेट, गुर्दे और पैरास्पाइनल मांसपेशियों सहित 18 सार्वजनिक रूप से उपलब्ध अल्ट्रासाउंड डेटासेट का उपयोग करते हुए, अल्ट्रासाउंड डोमेन में लो रैंक अडेप्टेशन (LoRA) का उपयोग करके 15 डेटासेट पर ग्राउंडिंग डीआईएनओ को फाइन-ट्यून्ड और मान्य किया गया है। शेष तीन डेटासेट का उपयोग अज्ञात वितरण पर प्रदर्शन का मूल्यांकन करने के लिए परीक्षण के लिए किया जाता है। ये परिणाम स्केलेबल और मज़बूत अल्ट्रासाउंड इमेज विश्लेषण के लिए वीएलएम की संभावनाओं को उजागर करते हैं और सुझाव देते हैं कि यह बड़े पैमाने पर अंग-विशिष्ट एनोटेशन डेटा पर निर्भरता को कम कर सकता है। स्वीकृति के बाद कोड को code.sonography.ai पर प्रकाशित किया जाएगा।

Takeaways, Limitations

Takeaways:
ग्राउंडिंग DINO और SAM2 को एकीकृत करते हुए VLM का उपयोग करके विभिन्न अल्ट्रासाउंड अंगों में ऑब्जेक्ट विभाजन प्रदर्शन में सुधार करना।
अत्याधुनिक तरीकों से भी बेहतर प्रदर्शन प्राप्त करना।
अज्ञात डेटासेट पर भी मजबूत प्रदर्शन बनाए रखता है (अतिरिक्त फाइन-ट्यूनिंग के बिना)।
बड़े पैमाने पर, दीर्घकालिक विशिष्ट एनोटेशन डेटा पर निर्भरता कम हो गई।
स्केलेबल और मजबूत अल्ट्रासाउंड छवि विश्लेषण की संभावना प्रस्तुत करना।
Limitations:
उपलब्ध कराए गए डेटासेट के प्रकार और वितरण के विस्तृत विवरण का अभाव।
LoRA का उपयोग करते हुए फाइन-ट्यूनिंग प्रक्रिया और हाइपरपैरामीटर्स पर विस्तृत जानकारी का अभाव।
कोड को Code.sonography.ai पर प्रकाशित किया जाना है, लेकिन यह अभी तक सार्वजनिक नहीं है।
प्रयोगात्मक परिणामों की सामान्यता के आगे सत्यापन की आवश्यकता है।
👍