दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

वैश्विक संदर्भ के साथ रैखिक ध्यान: दृष्टि और भौतिकी के लिए एक बहुध्रुवीय ध्यान तंत्र

Created by
  • Haebom

लेखक

एलेक्स कोलाग्रांडे, पॉल कैलॉन, ईवा फ़िलेट, एलेक्ज़ेंडर अल्लाउज़ेन

रूपरेखा

इस पत्र में, हम एक नया ध्यान तंत्र, मल्टीपोल अटेंशन न्यूरल ऑपरेटर (MANO) प्रस्तावित करते हैं, जो मौजूदा ट्रांसफॉर्मर की सीमाओं को दूर करने के लिए मल्टीपोल विधि का उपयोग करता है, जिसे उच्च-रिज़ॉल्यूशन इनपुट को संसाधित करने में कठिनाई होती है। MANO ग्रिड बिंदुओं के बीच एक अंतःक्रिया समस्या के रूप में ध्यान को फिर से तैयार करके दूरी-आधारित बहु-पैमाने के तरीके से ध्यान की गणना करता है। यह प्रत्येक ध्यान शीर्ष में एक वैश्विक ग्रहणशील क्षेत्र को बनाए रखते हुए ग्रिड बिंदुओं की संख्या के संबंध में रैखिक समय और स्मृति जटिलता प्राप्त करता है। छवि वर्गीकरण और डार्सी प्रवाह पर प्रायोगिक परिणाम दिखाते हैं कि MANO ViT और स्विन ट्रांसफॉर्मर जैसे अत्याधुनिक मॉडलों के बराबर प्रदर्शन करता है, जबकि कई क्रम के परिमाण द्वारा चलने का समय और अधिकतम मेमोरी उपयोग को कम करता है। कोड सार्वजनिक रूप से उपलब्ध है।

Takeaways, Limitations

Takeaways:
मौजूदा ट्रांसफॉर्मर्स की कम्प्यूटेशनल जटिलता समस्या (द्विघात जटिलता) को हल करने के लिए एक नया दृष्टिकोण प्रस्तुत किया गया है।
मल्टीपोल विधियों का उपयोग करके उच्च-रिज़ॉल्यूशन इनपुट के लिए कुशल ध्यान संगणना।
रैखिक समय और मेमोरी जटिलता प्राप्त करके उच्च-रिज़ॉल्यूशन छवि और डेटा प्रसंस्करण की संभावनाओं का विस्तार करना।
छवि वर्गीकरण और डार्सी प्रवाह में SOTA मॉडल के साथ प्रतिस्पर्धी प्रदर्शन का प्रदर्शन किया।
कोड प्रकटीकरण के माध्यम से पुनरुत्पादनशीलता सुनिश्चित करना।
Limitations:
यह सुनिश्चित करने के लिए अतिरिक्त सत्यापन की आवश्यकता है कि प्रस्तावित MANO का प्रदर्शन विभिन्न अन्य कार्यों और डेटासेटों में सुसंगत बना रहे।
मल्टीपोल विधि के पैरामीटर ट्यूनिंग और अनुकूलन पर आगे अनुसंधान की आवश्यकता है।
यह किसी विशिष्ट प्रकार के डेटा (ग्रिड-प्रकार डेटा) के लिए विशिष्ट हो सकता है, इसलिए सामान्य डेटा प्रकारों पर इसकी प्रयोज्यता का अध्ययन करना आवश्यक है।
👍