दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सीटीए: बेहतर परीक्षा समय प्रशिक्षण के लिए क्रॉस-टास्क संरेखण

ओपनएस2एस: पूर्णतः ओपन-सोर्स एंड-टू-एंड एम्पैथेटिक लार्ज स्पीच लैंग्वेज मॉडल का विकास

मल्टीमॉडल मल्टी-इंस्टेंस लर्निंग द्वारा परिधीय रक्त टीसीआर रिपर्टोयर्स से स्वप्रतिरक्षी रोगों का वर्गीकरण

इस समय क्या चल रहा है? वीडियो-केंद्रित ऑडियो-विजुअल स्थानीयकरण

LoSiA: सबनेट स्थानीयकरण और अनुकूलन के माध्यम से कुशल उच्च-रैंक फ़ाइन-ट्यूनिंग

डोमेन सामान्यीकरण योग्य पोर्ट्रेट शैली स्थानांतरण

StreamDiT: रीयल-टाइम स्ट्रीमिंग टेक्स्ट-टू-वीडियो जनरेशन

वीडियो से ईईजी तक: मस्तिष्क संकेत विश्लेषण में दृश्य अवधारणाओं को उजागर करने के लिए संयुक्त एम्बेडिंग पूर्वानुमान वास्तुकला को अपनाना

बीएमएमआर: एक बड़े पैमाने का द्विभाषी बहुविध बहु-विषयक तर्क डेटासेट

आदर्श MHD संतुलन का तंत्रिका-नेटवर्क सॉल्वर

RAG-R1: बहु-प्रश्न समानांतरवाद के माध्यम से LLMs की खोज और तर्क क्षमताओं को प्रोत्साहित करना

जापानी में एआई परामर्श का मूल्यांकन: प्रेरक साक्षात्कार मानदंडों द्वारा मूल्यांकन किए गए परामर्शदाता, ग्राहक और मूल्यांकनकर्ता की भूमिकाएँ

हिता: ऑटोरिग्रैसिव इमेज जेनरेशन के लिए समग्र टोकनाइज़र

पारस्परिक-दृश्यता समस्या के लिए अनुमानी और सन्निकटन एल्गोरिदम का अनुभवजन्य विश्लेषण

होरस: अनिश्चितता के तहत अविश्वसनीय प्रतिनिधिमंडल के लिए एक प्रोटोकॉल

भूवैज्ञानिक सब कुछ मॉडल 3D: एकीकृत और शून्य-शॉट उपसतह समझ के लिए एक त्वरित आधार मॉडल

SurgiSR4K: रोबोटिक सहायता प्राप्त न्यूनतम इनवेसिव प्रक्रियाओं के लिए एक उच्च-रिज़ॉल्यूशन एंडोस्कोपिक वीडियो डेटासेट

WATS: वेवलेट-अवेयर तापमान स्केलिंग के साथ ग्राफ न्यूरल नेटवर्क का कैलिब्रेट करना

आईपीफॉर्मर-वीडियोएलएलएम: मल्टी-शॉट दृश्यों के लिए मल्टी-मोडल वीडियो समझ को बढ़ाना

एलएलएम से परे अनुकूलित वार्तालाप: एक आरएल-आधारित संवाद प्रबंधक

टेम्पोरल रेगुलराइजेशन के माध्यम से स्पाइकिंग न्यूरल नेटवर्क के सामान्यीकरण को बढ़ाना

बड़े भाषा मॉडलों का ध्यान बढ़ाकर निर्देशों का पालन करना

गलत उच्चारण का पता लगाने के लिए लॉगिट-आधारित GOP स्कोर का मूल्यांकन

मोबाइल ऐप्स की गोपनीयता और सुरक्षा के समर्थन पर एलएलएम: अत्याधुनिक तकनीक और अनुसंधान दिशाएँ

बड़े भाषा मॉडल में मतिभ्रम नियंत्रण की मौलिक असंभवता पर

स्थानिक रूप से सूचित COVID-19 अस्पताल में भर्ती पूर्वानुमान के लिए LSTM में स्थानिक-कालिक विशेषताओं को एकीकृत करना

CuVSLAM: CUDA त्वरित दृश्य ओडोमेट्री और मानचित्रण

ध्वन्यात्मक ज्ञान के साथ CTC-आधारित गलत उच्चारण का पता लगाने में GOP को बढ़ाना

पूर्व-प्रशिक्षित मॉडलों के पुन: उपयोग में कार्य और विशेषता सहसंबंधों का एक अनुभवजन्य अध्ययन

EEG2TEXT-CN: बड़े भाषा मॉडल और चीनीEEG पर विपरीत शिक्षण के माध्यम से मुक्त-शब्दावली चीनी पाठ-EEG संरेखण का एक खोजपूर्ण अध्ययन

ह्यूम: दृश्य-भाषा-क्रिया मॉडल में सिस्टम-2 सोच का परिचय

दृष्टि-भाषा मॉडल के लिए सामान्य सतत स्मृति की ओर

कॉमन डेटा फॉर्मेट (CDF): फुटबॉल (सॉकर) में मैच-डेटा के लिए एक मानकीकृत प्रारूप

बायेसियन पदानुक्रमित अपरिवर्तनीय भविष्यवाणी

डिफ्यूजन टाइमस्टेप्स के माध्यम से बैकप्रोपेगेशन के साथ डिफ्यूजन नीतियों को ठीक करना

विस्तृत संवलन और ध्यान-सहायता प्राप्त स्थानिक पूलिंग के साथ उपग्रह वस्तु स्थानीयकरण को बढ़ाना

कम संसाधन वाली भाषाओं के लिए जनरेटिव भाषा मॉडलिंग में डेटा की कमी पर काबू पाना: एक व्यवस्थित समीक्षा

जेनएआई पीढ़ी: जागरूकता, तैयारी और चिंता के बारे में छात्रों के विचार

ऑफ़लाइन सुदृढीकरण सीखने के लिए भिन्नात्मक OOD स्थिति सुधार

ऊष्मा प्रसार मॉडल -- अंतरपिक्सल ध्यान तंत्र

नोवाग: बड़े भाषा मॉडलों के आकार संरक्षण संपीड़न के लिए एक एकीकृत ढांचा

बड़े भाषा मॉडल के साथ तर्क के लिए ऑफ़लाइन सीखना और भूलना

मूल्यांकन मानकों को पुनर्परिभाषित करना: भाषा मॉडलों की कोरियाई क्षमताओं के मूल्यांकन के लिए एक एकीकृत ढाँचा

PVChat: एक बार में सीखने के साथ व्यक्तिगत वीडियो चैट

अहंकार-केंद्रित दृष्टि में चुनौतियाँ और रुझान: एक सर्वेक्षण

पर्यावरण पर नज़र: आग और धुएँ के वर्गीकरण, विभाजन और पता लगाने के लिए AI-संचालित विश्लेषण

विश्लेषणात्मक उपस्थान रूटिंग: बड़े भाषा मॉडल के निरंतर सीखने में पुनरावर्ती न्यूनतम वर्ग कैसे काम करता है

ट्रांसफॉर्मर संदर्भ विस्तार पर एक सर्वेक्षण: दृष्टिकोण और मूल्यांकन

युवा डिजिटल नागरिकों के लिए नैतिक एआई: गोपनीयता शासन पर कार्रवाई का आह्वान

यूनीकम्बाइन: डिफ्यूजन ट्रांसफॉर्मर के साथ एकीकृत बहु-सशर्त संयोजन

एल्गोरिथमिक स्टेट आर्किटेक्चर (ASA): AI-सक्षम सरकार के लिए एक एकीकृत ढांचा

बड़े भाषा मॉडल को एकीकृत करने वाले ऑन-रैंप मर्जिंग नियंत्रण के लिए एक कैस्केडिंग सहकारी बहु-एजेंट फ्रेमवर्क

इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड पर एक जनरेटिव पूर्व-प्रशिक्षित ट्रांसफॉर्मर का उपयोग करके शून्य-शॉट चिकित्सा घटना की भविष्यवाणी

जीएमएलएम: हेटरोफिलिक नोड वर्गीकरण के लिए ब्रिजिंग ग्राफ न्यूरल नेटवर्क और भाषा मॉडल

चक्रीय उपयोगकर्ता संघ के साथ पदानुक्रमित सुरक्षित एकत्रीकरण की मूलभूत सीमाएँ

स्पष्ट ज्ञान सीमा मॉडलिंग के माध्यम से एलएलएम विश्वसनीयता को बढ़ाना

आरएसपीओ: बड़े भाषा मॉडलों का नियमित स्व-प्ले संरेखण

दृश्य प्रश्नोत्तर के लिए सूक्ष्म ज्ञान संरचना और पुनर्प्राप्ति

एंट्रोपिक जोखिम उपायों के माध्यम से कुशल जोखिम-संवेदनशील योजना

एलएलएम के माध्यम से नियंत्रित छवि संपादन के लिए बायेसियन अनुकूलन

बहुभाषी वाक् पहचान और अनुवाद के लिए निम्न-रैंक और विरल मॉडल विलय

हृदय विफलता आकलन के लिए एकीकृत वीडियो-पाठ आधारित बड़े भाषा मॉडल के साथ संयोजनीय रणनीति ढांचा

क्षितिज से परे सुरक्षित: तंत्रिका नियंत्रण बाधा कार्यों के साथ कुशल नमूनाकरण-आधारित एमपीसी

एकाधिक डेटा स्रोतों पर सशर्त जनरेटिव मॉडलिंग के लिए एक सिद्धांत

मास रिपलसिंग ऑप्टिमल ट्रांसपोर्ट के माध्यम से अप्रशिक्षित विसंगति का पता लगाना

स्केलेबल डिस्क्रीट डिफ्यूजन सैंपलर: कॉम्बिनेटोरियल ऑप्टिमाइज़ेशन और सांख्यिकीय भौतिकी

डीपसेल: सर्किट प्रतिनिधित्व सीखने के लिए स्व-पर्यवेक्षित मल्टीव्यू फ्यूजन

वॉलीबॉट्स: मोशन कंट्रोल और रणनीतिक खेल को मिलाकर मल्टी-ड्रोन वॉलीबॉल गेम के लिए एक परीक्षण मंच

ViGiL3D: 3D विज़ुअल ग्राउंडिंग के लिए भाषाई रूप से विविध डेटासेट

मॉड्यूलर रोबोट के साथ समग्र निर्माण स्वचालन: उच्च-स्तरीय कार्य विनिर्देशन से लेकर निष्पादन तक

Aria-UI: GUI निर्देशों के लिए विज़ुअल ग्राउंडिंग

रैंडएआर: यादृच्छिक क्रम में केवल डिकोडर-स्वतःप्रगामी दृश्य निर्माण

अप्रशिक्षित दृश्य प्रतिनिधित्व अधिगम के रूप में पूर्व प्रशिक्षित प्रतिवर्ती पीढ़ी

प्री-ट्रेनिंग ग्राफ कॉन्ट्रास्टिव मास्क्ड ऑटोएनकोडर ईईजी के लिए मजबूत डिस्टिलर हैं

ट्वीडी के साथ रैंडम वॉक: स्कोर-आधारित प्रसार मॉडल का एक एकीकृत दृष्टिकोण

डेटा-कुशल रोबोट सीखने के लिए क्रिया अनुक्रम के साथ मोटे-से-बारीक क्यू-नेटवर्क

मल्टी-मोडल फाउंडेशन मॉडल का उपयोग करके स्ट्रोक जोखिम पूर्वानुमान को आगे बढ़ाना

मन का एक एआई सिद्धांत हमारी सामूहिक बुद्धिमत्ता को बढ़ाएगा

क्या एलएलएम भविष्यदर्शी होते हैं? दैनिक समाचारों को भविष्यसूचक मानकर एक सतत मूल्यांकन

मल्टीमॉडल डेटा के साथ अनुक्रमिक वर्गीकरण के लिए अनुदैर्ध्य एनसेंबल एकीकरण

सूक्ष्म समय-सीमा पर बीटा प्रतिष्ठा का उपयोग करके मानव-रोबोट सहयोग में विश्वास आकलन में सुधार

छल और हमला: जेलब्रेकिंग और एलएलएम की सुरक्षा के लिए ध्यान-आधारित रणनीतियाँ

ऑटिज्म स्पेक्ट्रम विकार वाले बच्चों के लिए सीखने और सामाजिक संपर्क को बढ़ाने में एआर/वीआर, एआई, यूआई/यूएक्स और रोबोटिक्स प्रौद्योगिकियों का संबंध: एक व्यवस्थित समीक्षा

जब आपने पहली बार $A^2+b^2=c^2$ देखा तो आप क्या पूछेंगे? जिज्ञासा-आधारित प्रश्नों के आधार पर LLM का मूल्यांकन

विनाशकारी नुकसान के लिए देयता और बीमा: परमाणु ऊर्जा की मिसाल और एआई के लिए सबक

कृत्रिम बुद्धिमत्ता से बीमा न किए जा सकने वाले जोखिमों का बीमा: अंतिम उपाय के रूप में राज्य बीमाकर्ता

मानव मौखिक संचार पर वृहद भाषा मॉडल के प्रभाव का अनुभवजन्य साक्ष्य

सीखे गए पुरस्कार कार्यों को अनुकूलित करने के खतरे: कम प्रशिक्षण त्रुटि कम पछतावे की गारंटी नहीं देती

एलएलएम से लेकर कार्यों तक: पदानुक्रमित रोबोट नियंत्रण में सेतु के रूप में अव्यक्त कोड

वक्रता-संरेखित संघीय शिक्षा (CAFe): जनसांख्यिकी के बिना निष्पक्षता के लिए हानि परिदृश्यों का सामंजस्य

CoDy: गतिशील ग्राफ़ के लिए प्रतितथ्यात्मक व्याख्याकार

गॉसियन मिश्रण मॉडल के माध्यम से डोमेन अनुकूलन के लिए इष्टतम परिवहन

वितरित ज्ञान ग्राफ़ से जटिल प्रश्नों के उत्तर देने के लिए फ़ेडरेटेड न्यूरल ग्राफ़ डेटाबेस सीखना

रूसी सोशल मीडिया में मूल्य-अभिव्यक्तिपरक टेक्स्ट पोस्ट का पता लगाना

डीप न्यूरल नेटवर्क में एक इनबिल्ट ओकम रेजर होता है

टीटी-टीएफएचई: एक टोरस पूर्णतः होमोमॉर्फिक एन्क्रिप्शन-फ्रेंडली न्यूरल नेटवर्क आर्किटेक्चर

साइमास्टर: सामान्य प्रयोजन वैज्ञानिक एआई एजेंटों की ओर, भाग I. X-मास्टर एक आधार के रूप में: क्या हम मानवता की अंतिम परीक्षा में नेतृत्व कर सकते हैं?

मेडजेम्मा तकनीकी रिपोर्ट

अज्ञेय वितरण शिफ्ट के तहत ज्ञान ग्राफ तर्क के लिए नियम सीखना

चेन-ऑफ-थॉट कम्प्रेशन के लिए सक्रियण स्टीयरिंग

बड़ी भाषा और मल्टीमॉडल मॉडल में असतत प्रसार: एक सर्वेक्षण

Created by

Haebom

लेखक

रुनपेंग यू, क्यूई ली, शिनचाओ वांग

रूपरेखा

यह शोधपत्र असतत प्रसार भाषा मॉडल (DLLM) और असतत प्रसार बहुविध भाषा मॉडल (dMLLM) की व्यवस्थित जांच प्रस्तुत करता है। ऑटोरिग्रैसिव (AR) मॉडल के विपरीत, dLLM और dMLLM पूर्ण ध्यान और शोर-मुक्ति-आधारित पीढ़ी रणनीतियों का उपयोग करके एक बहु-टोकन समानांतर डिकोडिंग प्रतिमान को अपनाते हैं। यह प्रतिमान स्वाभाविक रूप से समानांतर पीढ़ी, बारीक-बारीक आउटपुट नियंत्रण और गतिशील और प्रतिक्रिया-संवेदनशील पहचान को सक्षम बनाता है, जिसे पहले AR मॉडल के साथ हासिल करना मुश्किल था। हाल ही में, कई औद्योगिक-पैमाने के मालिकाना d(M)LLM और कई ओपन-सोर्स अकादमिक d(M)LLM ने अनुमान की गति को 10 गुना तक बेहतर करते हुए ऑटोरिग्रैसिव मॉडल के बराबर प्रदर्शन हासिल किया है। असतत प्रसार LLM और MLLM में प्रगति मुख्य रूप से दो क्षेत्रों में प्रगति से प्रेरित है। पहला है ऑटोरिग्रैसिव एलएलएम और एमएलएलएम का विकास, जिसने प्रशिक्षण और अनुमान के लिए बहुत अधिक मात्रा में डेटा, बेंचमार्क और अंतर्निहित अवसंरचनाएँ एकत्रित की हैं। योगदान का दूसरा क्षेत्र असतत प्रसार के अंतर्निहित गणितीय मॉडल की उन्नति है। इन प्रगतियों ने 2025 के दशक की शुरुआत में डीएलएलएम और डीएमएलएलएम अनुसंधान में उछाल ला दिया है। यह पत्र डीएलएलएम और डीएमएलएलएम क्षेत्र में अनुसंधान का एक व्यापक अवलोकन प्रस्तुत करता है, डीएलएलएम और डीएमएलएलएम के ऐतिहासिक विकास का पता लगाता है, अंतर्निहित गणितीय रूपरेखा को औपचारिक बनाता है, और प्रतिनिधि मॉडलों को वर्गीकृत करता है। यह प्रशिक्षण और अनुमान के लिए प्रमुख तकनीकों का भी विश्लेषण करता है, और भाषा, दृष्टि-भाषाई और जैविक डोमेन में उभरते अनुप्रयोगों का सारांश देता है। अंत में, यह अनुसंधान और परिनियोजन के लिए भविष्य की दिशाओं पर चर्चा करता है।

Takeaways, Limitations

•

Takeaways:

◦

डीएलएलएम और डीएमएलएलएम, एआर मॉडलों की तुलना में लाभ प्रदान करते हैं, जिनमें समानांतर उत्पादन, सूक्ष्म आउटपुट नियंत्रण, तथा गतिशील और प्रतिक्रिया-संवेदनशील पहचान शामिल हैं।

◦

डीएलएलएम और डीएमएलएलएम ने एआर मॉडल की तुलना में 10 गुना तक अनुमान गति प्राप्त की।

◦

यह पत्र डीएलएलएम और डीएमएलएलएम के ऐतिहासिक विकास, उनके गणितीय ढांचे, प्रतिनिधि मॉडल, प्रशिक्षण और अनुमान तकनीकों और विभिन्न अनुप्रयोगों का व्यापक अवलोकन प्रदान करता है।

◦

डीएलएलएम और डीएमएलएलएम अनुसंधान के लिए भविष्य की दिशाएँ प्रस्तुत करता है।

•

_____टी17230_____:

◦

यह पेपर विशिष्ट मॉडलों या अनुप्रयोगों के गहन विश्लेषण के बजाय सामान्य अवलोकन पर केंद्रित है।

◦

डीएलएलएम और डीएमएलएलएम के पक्ष और विपक्ष पर विस्तृत चर्चा का अभाव हो सकता है।

◦

भावी अनुसंधान दिशाओं के लिए सुझाव विशिष्ट नहीं हो सकते।

पीडीएफ देखें

Made with Slashpage