दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

संपादक से सघन ज्यामिति अनुमानक तक

Created by
  • Haebom

लेखक

जियुआन वांग, चुन्यु लिन, लेई सन, रोंगयिंग लियू, लैंग नी, मिंगक्सिंग ली, कांग लियाओ, जियांगज़ियांग चू, याओ झाओ

रूपरेखा

सघन भविष्यवाणी के लिए पूर्व प्रशिक्षित टेक्स्ट-टू-इमेज (T2I) जनरेटिव मॉडल में दृश्य पूर्व सूचना के उपयोग पर पिछले शोध के आधार पर, यह पत्र यह परिकल्पना करता है कि छवि संपादन मॉडल, T2I जनरेटिव मॉडल की तुलना में सघन ज्यामिति अनुमान को ठीक करने के लिए अधिक उपयुक्त आधार के रूप में काम कर सकते हैं। इसे सत्यापित करने के लिए, हम जनरेटिव और संपादन मॉडल के ठीक-ट्यूनिंग व्यवहारों का व्यवस्थित रूप से विश्लेषण करते हैं, यह दर्शाते हुए कि संपादन मॉडल, अपनी अनूठी संरचनात्मक पूर्व सूचना के साथ, अधिक स्थिर अभिसरण और उच्चतर प्रदर्शन प्राप्त करता है। इन निष्कर्षों के आधार पर, हम FE2E का प्रस्ताव करते हैं, जो एक नया ढांचा है जो प्रसार ट्रांसफार्मर (DiT) आर्किटेक्चर पर आधारित उन्नत संपादन मॉडल को सघन ज्यामिति भविष्यवाणी पर लागू करता है। FE2E संपादन मॉडल के मूल प्रवाह मिलान हानि को "सुसंगत वेग" प्रशिक्षण उद्देश्य के रूप में पुनर्निर्मित करता हमने बड़े पैमाने पर डेटा वृद्धि के बिना कई डेटासेट पर शून्य-शॉट मोनोकुलर गहराई और सामान्य अनुमान के लिए उल्लेखनीय प्रदर्शन सुधार प्राप्त किया है, विशेष रूप से ETH3D डेटासेट पर 35% से अधिक प्रदर्शन सुधार का प्रदर्शन किया है और 100x अधिक डेटा पर प्रशिक्षित डेप्थएनीथिंग श्रृंखला से बेहतर प्रदर्शन किया है।

Takeaways, Limitations

Takeaways:
हमने प्रयोगात्मक रूप से प्रदर्शित किया है कि छवि संपादन मॉडल सघन ज्यामिति आकलन जैसे सघन पूर्वानुमान कार्यों के लिए अधिक उपयुक्त आधार हैं।
हम एक FE2E फ्रेमवर्क प्रस्तुत करते हैं जो डिफ्यूजन ट्रांसफॉर्मर पर आधारित संपादन मॉडल का प्रभावी ढंग से उपयोग करके शून्य-शॉट मोनोकुलर गहराई और सामान्य अनुमान प्रदर्शन में महत्वपूर्ण सुधार करता है।
यह बड़ी मात्रा में डेटा के बिना भी उत्कृष्ट प्रदर्शन प्राप्त करने की संभावना को दर्शाता है।
एक ही पास में गहराई और सामान्य के एक साथ आकलन के लिए एक कुशल विधि प्रस्तुत की गई है।
Limitations:
FE2E का प्रदर्शन सुधार विशिष्ट डेटासेट तक सीमित हो सकता है।
अन्य प्रकार के सघन पूर्वानुमान कार्यों के लिए सामान्यीकरण प्रदर्शन सत्यापन की आवश्यकता होती है।
डिफ्यूज़न ट्रांसफ़ॉर्मर आर्किटेक्चर पर निर्भरता। अन्य आर्किटेक्चर के लिए स्केलेबिलिटी की समीक्षा की आवश्यकता है।
👍