दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

ऊष्मा प्रसार मॉडल -- अंतरपिक्सल ध्यान तंत्र

Created by
  • Haebom

लेखक

पेंगफेई झांग, शौकिंग जिया

रूपरेखा

इस पत्र में, हम शोर-निरोधक प्रसार संभाव्यता मॉडल (DDPM) की सीमाओं को दूर करने के लिए एक ताप प्रसार मॉडल (HDM) प्रस्तावित करते हैं। DDPM जहाँ एक ओर संपूर्ण छवि को संसाधित करता है, वहीं HDM पिक्सेल के बीच एक अवधान तंत्र प्रस्तुत करता है ताकि छवि के विवरण संरक्षित रहें और अधिक यथार्थवादी छवियाँ उत्पन्न हों, यह ध्यान में रखते हुए कि आसन्न पिक्सेल के एक ही वस्तु से संबंधित होने की अधिक संभावना होती है। HDM, छवि प्रसंस्करण के दौरान आसन्न पिक्सेल के बीच संबंध की गणना करने के लिए द्वि-आयामी ताप समीकरण के असतत रूप को DDPM के प्रसार और जनरेटिव सूत्रों में एकीकृत करता है। प्रायोगिक परिणाम दर्शाते हैं कि HDM, DDPM, सुसंगत प्रसार मॉडल (CDM), सुप्त प्रसार मॉडल (LDM), और वेक्टर क्वांटाइज्ड जनरेटिव एडवर्सेरियल नेटवर्क (VQGAN) जैसे मॉडलों की तुलना में उच्च गुणवत्ता वाले नमूने उत्पन्न करता है।

Takeaways, Limitations

Takeaways:
हमने दर्शाया है कि पिक्सल के बीच संबंधों पर विचार करने से छवि विवरण को बेहतर ढंग से संरक्षित किया जा सकता है और अधिक यथार्थवादी छवियां बनाई जा सकती हैं।
डीडीपीएम-आधारित मॉडलों के प्रदर्शन को बेहतर बनाने के लिए एक नया दृष्टिकोण प्रस्तुत किया गया है।
यह विभिन्न छवि निर्माण मॉडलों की तुलना में बेहतर प्रदर्शन दर्शाता है।
Limitations:
एचडीएम की कम्प्यूटेशनल जटिलता के विश्लेषण का अभाव।
विभिन्न प्रकार के छवि डेटासेट पर अतिरिक्त प्रदर्शन मूल्यांकन की आवश्यकता है।
ध्यान तंत्र के विशिष्ट डिजाइन और दक्षता के विस्तृत विवरण का अभाव।
👍