दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सीटीए: बेहतर परीक्षा समय प्रशिक्षण के लिए क्रॉस-टास्क संरेखण

ओपनएस2एस: पूर्णतः ओपन-सोर्स एंड-टू-एंड एम्पैथेटिक लार्ज स्पीच लैंग्वेज मॉडल का विकास

मल्टीमॉडल मल्टी-इंस्टेंस लर्निंग द्वारा परिधीय रक्त टीसीआर रिपर्टोयर्स से स्वप्रतिरक्षी रोगों का वर्गीकरण

इस समय क्या चल रहा है? वीडियो-केंद्रित ऑडियो-विजुअल स्थानीयकरण

LoSiA: सबनेट स्थानीयकरण और अनुकूलन के माध्यम से कुशल उच्च-रैंक फ़ाइन-ट्यूनिंग

डोमेन सामान्यीकरण योग्य पोर्ट्रेट शैली स्थानांतरण

StreamDiT: रीयल-टाइम स्ट्रीमिंग टेक्स्ट-टू-वीडियो जनरेशन

वीडियो से ईईजी तक: मस्तिष्क संकेत विश्लेषण में दृश्य अवधारणाओं को उजागर करने के लिए संयुक्त एम्बेडिंग पूर्वानुमान वास्तुकला को अपनाना

बीएमएमआर: एक बड़े पैमाने का द्विभाषी बहुविध बहु-विषयक तर्क डेटासेट

आदर्श MHD संतुलन का तंत्रिका-नेटवर्क सॉल्वर

RAG-R1: बहु-प्रश्न समानांतरवाद के माध्यम से LLMs की खोज और तर्क क्षमताओं को प्रोत्साहित करना

जापानी में एआई परामर्श का मूल्यांकन: प्रेरक साक्षात्कार मानदंडों द्वारा मूल्यांकन किए गए परामर्शदाता, ग्राहक और मूल्यांकनकर्ता की भूमिकाएँ

हिता: ऑटोरिग्रैसिव इमेज जेनरेशन के लिए समग्र टोकनाइज़र

पारस्परिक-दृश्यता समस्या के लिए अनुमानी और सन्निकटन एल्गोरिदम का अनुभवजन्य विश्लेषण

होरस: अनिश्चितता के तहत अविश्वसनीय प्रतिनिधिमंडल के लिए एक प्रोटोकॉल

भूवैज्ञानिक सब कुछ मॉडल 3D: एकीकृत और शून्य-शॉट उपसतह समझ के लिए एक त्वरित आधार मॉडल

SurgiSR4K: रोबोटिक सहायता प्राप्त न्यूनतम इनवेसिव प्रक्रियाओं के लिए एक उच्च-रिज़ॉल्यूशन एंडोस्कोपिक वीडियो डेटासेट

WATS: वेवलेट-अवेयर तापमान स्केलिंग के साथ ग्राफ न्यूरल नेटवर्क का कैलिब्रेट करना

आईपीफॉर्मर-वीडियोएलएलएम: मल्टी-शॉट दृश्यों के लिए मल्टी-मोडल वीडियो समझ को बढ़ाना

एलएलएम से परे अनुकूलित वार्तालाप: एक आरएल-आधारित संवाद प्रबंधक

टेम्पोरल रेगुलराइजेशन के माध्यम से स्पाइकिंग न्यूरल नेटवर्क के सामान्यीकरण को बढ़ाना

बड़े भाषा मॉडलों का ध्यान बढ़ाकर निर्देशों का पालन करना

गलत उच्चारण का पता लगाने के लिए लॉगिट-आधारित GOP स्कोर का मूल्यांकन

मोबाइल ऐप्स की गोपनीयता और सुरक्षा के समर्थन पर एलएलएम: अत्याधुनिक तकनीक और अनुसंधान दिशाएँ

बड़े भाषा मॉडल में मतिभ्रम नियंत्रण की मौलिक असंभवता पर

स्थानिक रूप से सूचित COVID-19 अस्पताल में भर्ती पूर्वानुमान के लिए LSTM में स्थानिक-कालिक विशेषताओं को एकीकृत करना

CuVSLAM: CUDA त्वरित दृश्य ओडोमेट्री और मानचित्रण

ध्वन्यात्मक ज्ञान के साथ CTC-आधारित गलत उच्चारण का पता लगाने में GOP को बढ़ाना

पूर्व-प्रशिक्षित मॉडलों के पुन: उपयोग में कार्य और विशेषता सहसंबंधों का एक अनुभवजन्य अध्ययन

EEG2TEXT-CN: बड़े भाषा मॉडल और चीनीEEG पर विपरीत शिक्षण के माध्यम से मुक्त-शब्दावली चीनी पाठ-EEG संरेखण का एक खोजपूर्ण अध्ययन

ह्यूम: दृश्य-भाषा-क्रिया मॉडल में सिस्टम-2 सोच का परिचय

दृष्टि-भाषा मॉडल के लिए सामान्य सतत स्मृति की ओर

कॉमन डेटा फॉर्मेट (CDF): फुटबॉल (सॉकर) में मैच-डेटा के लिए एक मानकीकृत प्रारूप

बायेसियन पदानुक्रमित अपरिवर्तनीय भविष्यवाणी

डिफ्यूजन टाइमस्टेप्स के माध्यम से बैकप्रोपेगेशन के साथ डिफ्यूजन नीतियों को ठीक करना

विस्तृत संवलन और ध्यान-सहायता प्राप्त स्थानिक पूलिंग के साथ उपग्रह वस्तु स्थानीयकरण को बढ़ाना

कम संसाधन वाली भाषाओं के लिए जनरेटिव भाषा मॉडलिंग में डेटा की कमी पर काबू पाना: एक व्यवस्थित समीक्षा

जेनएआई पीढ़ी: जागरूकता, तैयारी और चिंता के बारे में छात्रों के विचार

ऑफ़लाइन सुदृढीकरण सीखने के लिए भिन्नात्मक OOD स्थिति सुधार

ऊष्मा प्रसार मॉडल -- अंतरपिक्सल ध्यान तंत्र

नोवाग: बड़े भाषा मॉडलों के आकार संरक्षण संपीड़न के लिए एक एकीकृत ढांचा

बड़े भाषा मॉडल के साथ तर्क के लिए ऑफ़लाइन सीखना और भूलना

मूल्यांकन मानकों को पुनर्परिभाषित करना: भाषा मॉडलों की कोरियाई क्षमताओं के मूल्यांकन के लिए एक एकीकृत ढाँचा

PVChat: एक बार में सीखने के साथ व्यक्तिगत वीडियो चैट

अहंकार-केंद्रित दृष्टि में चुनौतियाँ और रुझान: एक सर्वेक्षण

पर्यावरण पर नज़र: आग और धुएँ के वर्गीकरण, विभाजन और पता लगाने के लिए AI-संचालित विश्लेषण

विश्लेषणात्मक उपस्थान रूटिंग: बड़े भाषा मॉडल के निरंतर सीखने में पुनरावर्ती न्यूनतम वर्ग कैसे काम करता है

ट्रांसफॉर्मर संदर्भ विस्तार पर एक सर्वेक्षण: दृष्टिकोण और मूल्यांकन

युवा डिजिटल नागरिकों के लिए नैतिक एआई: गोपनीयता शासन पर कार्रवाई का आह्वान

यूनीकम्बाइन: डिफ्यूजन ट्रांसफॉर्मर के साथ एकीकृत बहु-सशर्त संयोजन

एल्गोरिथमिक स्टेट आर्किटेक्चर (ASA): AI-सक्षम सरकार के लिए एक एकीकृत ढांचा

बड़े भाषा मॉडल को एकीकृत करने वाले ऑन-रैंप मर्जिंग नियंत्रण के लिए एक कैस्केडिंग सहकारी बहु-एजेंट फ्रेमवर्क

इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड पर एक जनरेटिव पूर्व-प्रशिक्षित ट्रांसफॉर्मर का उपयोग करके शून्य-शॉट चिकित्सा घटना की भविष्यवाणी

जीएमएलएम: हेटरोफिलिक नोड वर्गीकरण के लिए ब्रिजिंग ग्राफ न्यूरल नेटवर्क और भाषा मॉडल

चक्रीय उपयोगकर्ता संघ के साथ पदानुक्रमित सुरक्षित एकत्रीकरण की मूलभूत सीमाएँ

स्पष्ट ज्ञान सीमा मॉडलिंग के माध्यम से एलएलएम विश्वसनीयता को बढ़ाना

आरएसपीओ: बड़े भाषा मॉडलों का नियमित स्व-प्ले संरेखण

दृश्य प्रश्नोत्तर के लिए सूक्ष्म ज्ञान संरचना और पुनर्प्राप्ति

एंट्रोपिक जोखिम उपायों के माध्यम से कुशल जोखिम-संवेदनशील योजना

एलएलएम के माध्यम से नियंत्रित छवि संपादन के लिए बायेसियन अनुकूलन

बहुभाषी वाक् पहचान और अनुवाद के लिए निम्न-रैंक और विरल मॉडल विलय

हृदय विफलता आकलन के लिए एकीकृत वीडियो-पाठ आधारित बड़े भाषा मॉडल के साथ संयोजनीय रणनीति ढांचा

क्षितिज से परे सुरक्षित: तंत्रिका नियंत्रण बाधा कार्यों के साथ कुशल नमूनाकरण-आधारित एमपीसी

एकाधिक डेटा स्रोतों पर सशर्त जनरेटिव मॉडलिंग के लिए एक सिद्धांत

मास रिपलसिंग ऑप्टिमल ट्रांसपोर्ट के माध्यम से अप्रशिक्षित विसंगति का पता लगाना

स्केलेबल डिस्क्रीट डिफ्यूजन सैंपलर: कॉम्बिनेटोरियल ऑप्टिमाइज़ेशन और सांख्यिकीय भौतिकी

डीपसेल: सर्किट प्रतिनिधित्व सीखने के लिए स्व-पर्यवेक्षित मल्टीव्यू फ्यूजन

वॉलीबॉट्स: मोशन कंट्रोल और रणनीतिक खेल को मिलाकर मल्टी-ड्रोन वॉलीबॉल गेम के लिए एक परीक्षण मंच

ViGiL3D: 3D विज़ुअल ग्राउंडिंग के लिए भाषाई रूप से विविध डेटासेट

मॉड्यूलर रोबोट के साथ समग्र निर्माण स्वचालन: उच्च-स्तरीय कार्य विनिर्देशन से लेकर निष्पादन तक

Aria-UI: GUI निर्देशों के लिए विज़ुअल ग्राउंडिंग

रैंडएआर: यादृच्छिक क्रम में केवल डिकोडर-स्वतःप्रगामी दृश्य निर्माण

अप्रशिक्षित दृश्य प्रतिनिधित्व अधिगम के रूप में पूर्व प्रशिक्षित प्रतिवर्ती पीढ़ी

प्री-ट्रेनिंग ग्राफ कॉन्ट्रास्टिव मास्क्ड ऑटोएनकोडर ईईजी के लिए मजबूत डिस्टिलर हैं

ट्वीडी के साथ रैंडम वॉक: स्कोर-आधारित प्रसार मॉडल का एक एकीकृत दृष्टिकोण

डेटा-कुशल रोबोट सीखने के लिए क्रिया अनुक्रम के साथ मोटे-से-बारीक क्यू-नेटवर्क

मल्टी-मोडल फाउंडेशन मॉडल का उपयोग करके स्ट्रोक जोखिम पूर्वानुमान को आगे बढ़ाना

मन का एक एआई सिद्धांत हमारी सामूहिक बुद्धिमत्ता को बढ़ाएगा

क्या एलएलएम भविष्यदर्शी होते हैं? दैनिक समाचारों को भविष्यसूचक मानकर एक सतत मूल्यांकन

मल्टीमॉडल डेटा के साथ अनुक्रमिक वर्गीकरण के लिए अनुदैर्ध्य एनसेंबल एकीकरण

सूक्ष्म समय-सीमा पर बीटा प्रतिष्ठा का उपयोग करके मानव-रोबोट सहयोग में विश्वास आकलन में सुधार

छल और हमला: जेलब्रेकिंग और एलएलएम की सुरक्षा के लिए ध्यान-आधारित रणनीतियाँ

ऑटिज्म स्पेक्ट्रम विकार वाले बच्चों के लिए सीखने और सामाजिक संपर्क को बढ़ाने में एआर/वीआर, एआई, यूआई/यूएक्स और रोबोटिक्स प्रौद्योगिकियों का संबंध: एक व्यवस्थित समीक्षा

जब आपने पहली बार $A^2+b^2=c^2$ देखा तो आप क्या पूछेंगे? जिज्ञासा-आधारित प्रश्नों के आधार पर LLM का मूल्यांकन

विनाशकारी नुकसान के लिए देयता और बीमा: परमाणु ऊर्जा की मिसाल और एआई के लिए सबक

कृत्रिम बुद्धिमत्ता से बीमा न किए जा सकने वाले जोखिमों का बीमा: अंतिम उपाय के रूप में राज्य बीमाकर्ता

मानव मौखिक संचार पर वृहद भाषा मॉडल के प्रभाव का अनुभवजन्य साक्ष्य

सीखे गए पुरस्कार कार्यों को अनुकूलित करने के खतरे: कम प्रशिक्षण त्रुटि कम पछतावे की गारंटी नहीं देती

एलएलएम से लेकर कार्यों तक: पदानुक्रमित रोबोट नियंत्रण में सेतु के रूप में अव्यक्त कोड

वक्रता-संरेखित संघीय शिक्षा (CAFe): जनसांख्यिकी के बिना निष्पक्षता के लिए हानि परिदृश्यों का सामंजस्य

CoDy: गतिशील ग्राफ़ के लिए प्रतितथ्यात्मक व्याख्याकार

गॉसियन मिश्रण मॉडल के माध्यम से डोमेन अनुकूलन के लिए इष्टतम परिवहन

वितरित ज्ञान ग्राफ़ से जटिल प्रश्नों के उत्तर देने के लिए फ़ेडरेटेड न्यूरल ग्राफ़ डेटाबेस सीखना

रूसी सोशल मीडिया में मूल्य-अभिव्यक्तिपरक टेक्स्ट पोस्ट का पता लगाना

डीप न्यूरल नेटवर्क में एक इनबिल्ट ओकम रेजर होता है

टीटी-टीएफएचई: एक टोरस पूर्णतः होमोमॉर्फिक एन्क्रिप्शन-फ्रेंडली न्यूरल नेटवर्क आर्किटेक्चर

साइमास्टर: सामान्य प्रयोजन वैज्ञानिक एआई एजेंटों की ओर, भाग I. X-मास्टर एक आधार के रूप में: क्या हम मानवता की अंतिम परीक्षा में नेतृत्व कर सकते हैं?

मेडजेम्मा तकनीकी रिपोर्ट

अज्ञेय वितरण शिफ्ट के तहत ज्ञान ग्राफ तर्क के लिए नियम सीखना

चेन-ऑफ-थॉट कम्प्रेशन के लिए सक्रियण स्टीयरिंग

ट्रांसफॉर्मर संदर्भ विस्तार पर एक सर्वेक्षण: दृष्टिकोण और मूल्यांकन

Created by

Haebom

लेखक

यिजुन लियू, जिनझेंग यू, यांग जू, झोंगयांग ली, किंगफू झू

रूपरेखा

यह शोधपत्र ट्रांसफ़ॉर्मर-आधारित वृहत्-स्तरीय भाषा मॉडल (एलएलएम) के दीर्घ-पाठ प्रसंस्करण कार्य पर केंद्रित है। एलएलएम लघु-पाठ कार्यों में अच्छा प्रदर्शन करते हैं, लेकिन दीर्घ-पाठ संदर्भों में उनका प्रदर्शन कमज़ोर हो जाता है। इस समस्या का समाधान करने के लिए, हम हाल के अध्ययनों की व्यवस्थित समीक्षा करते हैं और एक वर्गीकरण योजना प्रस्तावित करते हैं जो उन्हें चार प्रकारों में वर्गीकृत करती है: स्थितिगत एन्कोडिंग, संदर्भ संपीड़न, पुनर्प्राप्ति संवर्धन, और ध्यान पैटर्न। इसके अतिरिक्त, हम मौजूदा दीर्घ-पाठ संदर्भ बेंचमार्क के आधार पर प्रासंगिक डेटा, कार्यों और मीट्रिक्स को व्यवस्थित करते हैं, और दीर्घ-पाठ संदर्भ मूल्यांकन पर ध्यान केंद्रित करते हैं, अनसुलझे मुद्दों का सारांश प्रस्तुत करते हैं, और भविष्य के विकास की दिशाओं पर परिप्रेक्ष्य प्रदान करते हैं।

Takeaways, Limitations

•

Takeaways:

◦

एलएलएम दीर्घ-फॉर्म असाइनमेंट की व्यवस्थित समीक्षा और वर्गीकरण प्रदान करता है

◦

दीर्घ-पाठ संदर्भ प्रसंस्करण (स्थितिगत एन्कोडिंग, संदर्भ संपीड़न, खोज संवर्द्धन, ध्यान पैटर्न) के लिए विभिन्न दृष्टिकोणों का परिचय और वर्गीकरण

◦

दीर्घकालिक प्रासंगिक मूल्यांकन के लिए प्रासंगिक डेटा, कार्यों और मीट्रिक्स को व्यवस्थित करना

◦

भविष्य के अनुसंधान दिशाओं का सुझाव देना

•

Limitations:

◦

यह पत्र मौजूदा अध्ययनों के सर्वेक्षण और वर्गीकरण पर केंद्रित है और कोई नई पद्धति प्रस्तुत नहीं करता है।

◦

यह संभव है कि प्रस्तावित वर्गीकरण योजना सभी दीर्घ-प्रपत्र प्रसंस्करण दृष्टिकोणों को व्यापक रूप से कवर न कर सके।

◦

दीर्घ-प्रपत्र संदर्भ प्रसंस्करण की सटीक परिभाषा और दायरे पर स्पष्ट चर्चा का अभाव।

पीडीएफ देखें

Made with Slashpage