दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

ग्राफ्टिंग के माध्यम से डिफ्यूजन ट्रांसफार्मर डिजाइन की खोज

Created by
  • Haebom

लेखक

केशिगेयन चंद्रसेगरन, माइकल पोली, डैनियल वाई. फू, डोंगजुन किम, ली एम. हडज़िक, मैनलिंग ली, अग्रीम गुप्ता, स्टेफानो मासरोली, अज़ालिया मिरहोसिनी, जुआन कार्लोस नीबल्स, स्टेफानो एर्मन, ली फी-फी

रूपरेखा

यह शोधपत्र पूर्व-प्रशिक्षित डिफ्यूजन ट्रांसफॉर्मर (DiTs) को संशोधित करके नए आर्किटेक्चर का कुशलतापूर्वक अध्ययन करने के लिए एक 'ग्राफ्टिंग' तकनीक प्रस्तुत करता है। सक्रियण व्यवहार और ध्यान स्थानीयता के विश्लेषण के आधार पर, हम DiT-XL/2 पर आधारित एक परीक्षण वातावरण का निर्माण करते हैं और ग्राफ्टिंग के माध्यम से विभिन्न हाइब्रिड डिज़ाइन तैयार करते हैं, जैसे कि सॉफ्टमैक्स ध्यान को गेटेड कन्वोल्यूशन, लोकल अटेंशन और लीनियर अटेंशन से बदलना और MLP को विभिन्न फैलाव अनुपातों और कन्वोल्यूशनल वेरिएंट से बदलना। ये हाइब्रिड डिज़ाइन मूल DiT-XL/2 के समान प्रदर्शन (FID: 2.38-2.64 बनाम 2.27) को 2% से कम पूर्व-प्रशिक्षण संचालन के साथ प्राप्त करते हैं। हम यह भी दिखाते हैं कि ग्राफ्टिंग गति को 1.43x तक बेहतर बनाती है और इसे PixArt-Sigma मॉडल पर लागू करके GenEval स्कोर में गिरावट को 2% से कम बनाए रखती है। अंत में, हम DiT-XL/2 के अनुक्रमिक ट्रांसफॉर्मर ब्लॉकों के जोड़े को समानांतर ब्लॉकों में परिवर्तित करने का एक केस स्टडी दिखाते हैं, जो मॉडल की गहराई को 2 गुना कम करता है और बेहतर प्रदर्शन प्राप्त करता है (FID: 2.77)। यह अध्ययन दर्शाता है कि कम्प्यूटेशनल लागत को कम करते हुए पूर्व-प्रशिक्षित DiTs को संशोधित करके नए प्रसार मॉडल डिज़ाइनों का पता लगाना संभव है।

Takeaways, Limitations

Takeaways:
हम एक ग्राफ्टिंग तकनीक प्रस्तुत करते हैं जो पूर्व-प्रशिक्षित मॉडलों का लाभ उठाकर कुशलतापूर्वक नई आर्किटेक्चर की खोज करती है।
हम कम मात्रा में गणना के साथ उच्च गुणवत्ता वाले हाइब्रिड प्रसार मॉडल तैयार करने की व्यवहार्यता प्रदर्शित करते हैं।
मॉडल आर्किटेक्चर पुनर्गठन (जैसे समानांतरीकरण के माध्यम से गहराई में कमी) के माध्यम से संभावित प्रदर्शन सुधार और दक्षता लाभ का सुझाव देता है।
विभिन्न मॉडलों (छवि निर्माण मॉडल सहित) पर प्रयोज्यता प्रदर्शित करता है।
Limitations:
ग्राफ्टिंग तकनीकों की प्रयोज्यता कुछ प्रकार के मॉडलों तक ही सीमित हो सकती है, जैसे DiT.
चूंकि हमारा परीक्षण वातावरण DiT-XL/2 पर आधारित है, इसलिए अन्य मॉडल आर्किटेक्चर पर सामान्यीकरण पर आगे अनुसंधान की आवश्यकता है।
ग्राफ्टिंग के माध्यम से प्राप्त किये जा सकने वाले प्रदर्शन सुधार की सीमाओं पर आगे विश्लेषण की आवश्यकता है।
विभिन्न मॉडलों और कार्यों के साथ व्यापक प्रयोग की आवश्यकता है।
👍