दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

बड़ी भाषा और मल्टीमॉडल मॉडल में असतत प्रसार: एक सर्वेक्षण

Created by
  • Haebom

लेखक

रुनपेंग यू, क्यूई ली, शिनचाओ वांग

रूपरेखा

यह शोधपत्र असतत प्रसार भाषा मॉडल (DLLM) और असतत प्रसार बहुविध भाषा मॉडल (dMLLM) की व्यवस्थित जांच प्रस्तुत करता है। ऑटोरिग्रैसिव (AR) मॉडल के विपरीत, dLLM और dMLLM पूर्ण ध्यान और शोर-मुक्ति-आधारित पीढ़ी रणनीतियों का उपयोग करके एक बहु-टोकन समानांतर डिकोडिंग प्रतिमान को अपनाते हैं। यह प्रतिमान स्वाभाविक रूप से समानांतर पीढ़ी, बारीक-बारीक आउटपुट नियंत्रण और गतिशील और प्रतिक्रिया-संवेदनशील पहचान को सक्षम बनाता है, जिसे पहले AR मॉडल के साथ हासिल करना मुश्किल था। हाल ही में, कई औद्योगिक-पैमाने के मालिकाना d(M)LLM और कई ओपन-सोर्स अकादमिक d(M)LLM ने अनुमान की गति को 10 गुना तक बेहतर करते हुए ऑटोरिग्रैसिव मॉडल के बराबर प्रदर्शन हासिल किया है। असतत प्रसार LLM और MLLM में प्रगति मुख्य रूप से दो क्षेत्रों में प्रगति से प्रेरित है। पहला है ऑटोरिग्रैसिव एलएलएम और एमएलएलएम का विकास, जिसने प्रशिक्षण और अनुमान के लिए बहुत अधिक मात्रा में डेटा, बेंचमार्क और अंतर्निहित अवसंरचनाएँ एकत्रित की हैं। योगदान का दूसरा क्षेत्र असतत प्रसार के अंतर्निहित गणितीय मॉडल की उन्नति है। इन प्रगतियों ने 2025 के दशक की शुरुआत में डीएलएलएम और डीएमएलएलएम अनुसंधान में उछाल ला दिया है। यह पत्र डीएलएलएम और डीएमएलएलएम क्षेत्र में अनुसंधान का एक व्यापक अवलोकन प्रस्तुत करता है, डीएलएलएम और डीएमएलएलएम के ऐतिहासिक विकास का पता लगाता है, अंतर्निहित गणितीय रूपरेखा को औपचारिक बनाता है, और प्रतिनिधि मॉडलों को वर्गीकृत करता है। यह प्रशिक्षण और अनुमान के लिए प्रमुख तकनीकों का भी विश्लेषण करता है, और भाषा, दृष्टि-भाषाई और जैविक डोमेन में उभरते अनुप्रयोगों का सारांश देता है। अंत में, यह अनुसंधान और परिनियोजन के लिए भविष्य की दिशाओं पर चर्चा करता है।

Takeaways, Limitations

Takeaways:
डीएलएलएम और डीएमएलएलएम, एआर मॉडलों की तुलना में लाभ प्रदान करते हैं, जिनमें समानांतर उत्पादन, सूक्ष्म आउटपुट नियंत्रण, तथा गतिशील और प्रतिक्रिया-संवेदनशील पहचान शामिल हैं।
डीएलएलएम और डीएमएलएलएम ने एआर मॉडल की तुलना में 10 गुना तक अनुमान गति प्राप्त की।
यह पत्र डीएलएलएम और डीएमएलएलएम के ऐतिहासिक विकास, उनके गणितीय ढांचे, प्रतिनिधि मॉडल, प्रशिक्षण और अनुमान तकनीकों और विभिन्न अनुप्रयोगों का व्यापक अवलोकन प्रदान करता है।
डीएलएलएम और डीएमएलएलएम अनुसंधान के लिए भविष्य की दिशाएँ प्रस्तुत करता है।
_____टी17230_____:
यह पेपर विशिष्ट मॉडलों या अनुप्रयोगों के गहन विश्लेषण के बजाय सामान्य अवलोकन पर केंद्रित है।
डीएलएलएम और डीएमएलएलएम के पक्ष और विपक्ष पर विस्तृत चर्चा का अभाव हो सकता है।
भावी अनुसंधान दिशाओं के लिए सुझाव विशिष्ट नहीं हो सकते।
👍