दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

जियोएसएएम2: 3डी पार्ट सेगमेंटेशन के लिए एसएएम2 की शक्ति का उपयोग

Created by
  • Haebom

लेखक

केन डेंग, युन्हान यांग, जिंगज़ियांग सन, ज़िहुई लियू, येबिन लियू, डिंग लियांग, यान-पेई काओ

रूपरेखा

GeoSAM2 बनावट रहित 3D ऑब्जेक्ट्स के भाग विभाजन के लिए एक प्रॉम्प्ट-नियंत्रित फ़्रेमवर्क है। यह एक पूर्वनिर्धारित दृष्टिकोण से सामान्य और बिंदु मानचित्रों को प्रस्तुत करता है और भाग चयन के मार्गदर्शन के लिए सरल 2D प्रॉम्प्ट (क्लिक या बॉक्स) का उपयोग करता है। LoRA और अवशिष्ट ज्यामिति संलयन से संवर्धित एक साझा SAM2 बैकबोन, प्रॉम्प्ट को संसाधित करता है, जिससे पूर्व-प्रशिक्षित पूर्व सूचना को संरक्षित करते हुए दृश्य-विशिष्ट अनुमान सक्षम होता है। पूर्वानुमानित मास्क ऑब्जेक्ट पर बैकप्रोजेक्ट किए जाते हैं और विभिन्न दृश्यों में एकत्रित किए जाते हैं। यह विधि बिना किसी टेक्स्ट प्रॉम्प्ट, आकार-विशिष्ट अनुकूलन, या पूर्ण 3D लेबल के सूक्ष्म-कण वाले भाग-विशिष्ट नियंत्रण को सक्षम बनाती है। वैश्विक क्लस्टरिंग या स्केल-आधारित विधियों के विपरीत, प्रॉम्प्ट स्पष्ट, स्थानिक रूप से आधारित और व्याख्या योग्य होते हैं। यह PartObjaverse-Tiny और PartNetE पर अत्याधुनिक वर्ग-स्वतंत्र प्रदर्शन प्राप्त करता है, जो धीमी अनुकूलन-आधारित पाइपलाइनों और तेज़ लेकिन अपरिष्कृत फीड-फ़ॉरवर्ड दृष्टिकोणों, दोनों से बेहतर प्रदर्शन करता है। यह 3D विभाजन के लिए एक नए प्रतिमान को उजागर करता है जो SAM2 के प्रतिमान के साथ संरेखित होकर, वस्तु-स्तरीय भाग समझ में नियंत्रणीयता और सटीकता को बढ़ाने के लिए इंटरैक्टिव 2D इनपुट का लाभ उठाता है।

Takeaways, Limitations

Takeaways:
पाठ संकेत के बिना 3D ऑब्जेक्ट्स को विभाजित करने के लिए एक सटीक और नियंत्रणीय ढांचा प्रदान करता है।
भाग चयन को सहज और व्याख्या योग्य तरीके से निर्देशित करने के लिए 2D संकेतों का उपयोग करें।
यह अनुकूलन-आधारित विधियों की तुलना में अधिक तीव्र है तथा अपरिष्कृत फीडफॉरवर्ड विधियों की तुलना में अधिक सटीक है।
हम पार्टऑब्जर्वेस-टिनी और पार्टनेटई डेटासेट पर अत्याधुनिक प्रदर्शन प्राप्त करते हैं।
हम 3D विभाजन के लिए एक नया प्रतिमान प्रस्तुत करते हैं।
Limitations:
वर्तमान में, प्रदर्शन का मूल्यांकन केवल बिना बनावट वाली वस्तुओं के लिए किया गया है। बनावट वाली वस्तुओं के प्रदर्शन पर और शोध की आवश्यकता है।
प्रॉम्प्ट प्रकार केवल क्लिक और बॉक्स तक सीमित हैं। प्रॉम्प्ट प्रकारों की विस्तृत विविधता को समायोजित करने के लिए एक्सटेंशन की आवश्यकता हो सकती है।
क्योंकि यह SAM2 बैकबोन पर निर्भर करता है, बैकबोन की सीमाएं GeoSAM2 के प्रदर्शन को प्रभावित कर सकती हैं।
👍