दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

JointDiT: डिफ्यूजन ट्रांसफॉर्मर्स के साथ RGB-डेप्थ जॉइंट मॉडलिंग को बढ़ाना

Created by
  • Haebom

लेखक

क्वोन ब्यूंग-की, क्यूई दाई, ली ह्योसोक, चोंग लुओ, ताए-ह्यून ओह

रूपरेखा

JointDiT एक विसरण ट्रांसफार्मर है जो RGB छवियों और गहराई सूचना के संयुक्त वितरण का मॉडल तैयार करता है। यह अत्याधुनिक विसरण ट्रांसफार्मर और उत्कृष्ट छवि पूर्व सूचना के संरचनात्मक लाभों का लाभ उठाकर उच्च-गुणवत्ता वाली छवियां और ज्यामितीय रूप से विश्वसनीय एवं सटीक गहराई मानचित्र तैयार करता है। दो प्रभावी तकनीकें—अनुकूली शेड्यूलिंग भार (जो प्रत्येक मोडैलिटी के रव स्तर के अनुसार भिन्न होते हैं) और एक असंतुलित टाइमस्टेप नमूनाकरण रणनीति—सभी रव स्तरों के अंतर्गत मॉडल को सीखती हैं। यह इसे प्रत्येक शाखा के टाइमस्टेप को नियंत्रित करके, संयुक्त निर्माण, गहराई अनुमान और गहराई-सशर्त छवि निर्माण जैसे विभिन्न संयोजन निर्माण कार्यों को स्वाभाविक रूप से संभालने में सक्षम बनाता है। JointDiT उत्कृष्ट संयुक्त निर्माण प्रदर्शन प्रदर्शित करता है और गहराई अनुमान और गहराई-सशर्त छवि निर्माण के लिए समान परिणाम प्राप्त करता है, जो दर्शाता है कि संयुक्त वितरण मॉडलिंग सशर्त निर्माण का एक व्यवहार्य विकल्प हो सकता है।

Takeaways, Limitations

Takeaways:
आरजीबी छवियों और गहराई की जानकारी के संयुक्त वितरण को प्रभावी ढंग से मॉडलिंग करने के लिए एक नई विधि प्रस्तुत की गई है।
एक साथ उच्च गुणवत्ता वाली छवियां और सटीक गहराई मानचित्र बनाने की क्षमता।
संयुक्त निर्माण, गहराई आकलन, और गहराई-सशर्त छवि निर्माण जैसे विभिन्न कार्यों के लिए लागू।
सशर्त पीढ़ी के लिए एक व्यवहार्य विकल्प प्रस्तुत करना।
Limitations:
इस पेपर में विशिष्ट Limitations या सीमाओं के संदर्भ का अभाव है।
यह संभव है कि केवल एक विशिष्ट डेटासेट पर प्रदर्शन प्रस्तुत किया गया हो, तथा अन्य डेटासेट पर सामान्यीकरण प्रदर्शन के लिए अतिरिक्त सत्यापन की आवश्यकता हो।
कम्प्यूटेशनल लागत और मेमोरी उपयोग के बारे में जानकारी का अभाव।
👍