यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र डिफ्यूज़न ट्रांसफ़ॉर्मर्स (DiTs) की अनुमान गति में सुधार के लिए एक नवीन विधि प्रस्तावित करता है। पारंपरिक टेलरसीयर सभी ट्रांसफ़ॉर्मर ब्लॉकों के मध्यवर्ती फ़ीचर्स को कैश करता है और टेलर विस्तार के माध्यम से भविष्य के फ़ीचर्स की भविष्यवाणी करता है। हालाँकि, इसमें मेमोरी और कम्प्यूटेशनल ओवरहेड की भारी समस्या होती है और यह भविष्यवाणी की सटीकता पर विचार करने में विफल रहता है। इस शोधपत्र में, हम टेलर भविष्यवाणी लक्ष्य को अंतिम ब्लॉक पर स्थानांतरित करके कैश्ड फ़ीचर्स की संख्या कम करते हैं और पहले ब्लॉक की भविष्यवाणी त्रुटि पर आधारित एक गतिशील कैशिंग तंत्र का प्रस्ताव करते हैं। यह गति और गुणवत्ता के बीच संतुलन को बेहतर बनाता है, जिससे FLUX, DiT और Wan वीडियो के लिए अनुमान गति में क्रमशः 3.17x, 2.36x और 4.14x की वृद्धि प्राप्त होती है।
Takeaways, Limitations
•
Takeaways:
◦
मौजूदा टेलरसीयर की उच्च मेमोरी और गणना ओवरहेड को प्रभावी ढंग से हल करता है, जो कि Limitations है।
◦
गतिशील कैशिंग तंत्र के माध्यम से पूर्वानुमान सटीकता के आधार पर अनुमान गति को लचीले ढंग से समायोजित करें।
◦
विभिन्न DiT मॉडलों में गति सुधार और गुणवत्ता प्रतिधारण दोनों हासिल किए गए।
•
Limitations:
◦
प्रस्तावित विधि की प्रभावशीलता पहले ब्लॉक की पूर्वानुमान त्रुटि पर अत्यधिक निर्भर है। त्रुटि अनुमान की सटीकता से प्रदर्शन प्रभावित हो सकता है।
◦
केवल विशिष्ट मॉडलों (FLUX, DiT, Wan Video) के लिए प्रायोगिक परिणाम प्रस्तुत किए गए हैं, इसलिए अन्य मॉडलों के लिए सामान्यीकरण हेतु आगे सत्यापन की आवश्यकता है।
◦
गतिशील कैशिंग तंत्र के मापदंडों (जैसे, त्रुटि सहिष्णुता) के अनुकूलन पर विस्तृत जानकारी का अभाव है।