[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

टेक्स्ट-टू-इमेज निर्माण के लिए स्थानीय प्रतिनिधि टोकन निर्देशित विलय

Created by
  • Haebom

लेखक

मिन-जियोंग ली, ही-डोंग किम, सेओंग-व्हान ली

रूपरेखा

इस पत्र में, हम एक नवीन टोकन विलय रणनीति, ReToM (स्थानीय प्रतिनिधि टोकन निर्देशित विलय) का प्रस्ताव करते हैं, जिसका उद्देश्य स्थिर प्रसार (Stable Diffusion), एक पाठ-आधारित छवि निर्माण मॉडल, की गति में सुधार करना है। यद्यपि मौजूदा टोकन विलय विधियाँ ध्यान संचालन की गणना संबंधी जटिलता को कम करने पर ध्यान केंद्रित करती हैं, वे छवि निर्माण मॉडल की विशेषताओं पर विचार नहीं करती हैं। इस सीमा को पार करने के लिए, ReToM ध्यान इनपुट में विंडो के आधार पर स्थानीय सीमाएँ निर्धारित करता है और विभिन्न प्रासंगिक सूचनाओं के आधार पर टोकन विलय करने के लिए विंडो आकार को समायोजित करता है। इसके अतिरिक्त, हम एक प्रतिनिधि टोकन प्रस्तुत करते हैं जो एक विशिष्ट समय चरण पर समानता की गणना करके प्रत्येक विंडो में सबसे अधिक प्रतिनिधि टोकन का चयन करता है, जिससे सबसे महत्वपूर्ण स्थानीय विशेषताओं को संरक्षित करते हुए गणना संबंधी ओवरहेड को कम किया जा सकता है। प्रायोगिक परिणाम दर्शाते हैं कि ReToM आधारभूत मॉडल की तुलना में FID में 6.2% सुधार करता है और CLIP स्कोर को बढ़ाता है, जबकि अनुमान समय समान रहता है। यह अनुभवजन्य रूप से प्रदर्शित करता है कि यह दृश्य गुणवत्ता और गणना दक्षता में प्रभावी रूप से संतुलन बनाता है।

Takeaways, Limitations

Takeaways:
हम एक नवीन टोकन विलय रणनीति, ReToM प्रस्तुत करते हैं, जो स्थिर प्रसार जैसे ध्यान-आधारित छवि निर्माण मॉडल की गति को बेहतर बनाने में योगदान देती है।
बेहतर FID और CLIP स्कोर के माध्यम से छवि गुणवत्ता में सुधार की पुष्टि हुई।
यह कम्प्यूटेशनल दक्षता और छवि गुणवत्ता के बीच प्रभावी संतुलन प्राप्त करता है।
विभिन्न ध्यान तंत्रों पर लागू एक सामान्य कार्यप्रणाली की प्रस्तुति।
Limitations:
ReToM का प्रदर्शन सुधार विशिष्ट डेटासेट या मॉडल तक सीमित हो सकता है।
विंडो आकार निर्धारण और प्रतिनिधि टोकन चयन के लिए अनुकूलन रणनीतियों पर और अधिक शोध की आवश्यकता हो सकती है।
अन्य टोकन विलय विधियों के साथ अधिक व्यापक तुलनात्मक विश्लेषण की आवश्यकता है।
👍