दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एसी-डीआईटी: मोबाइल मैनिपुलेशन के लिए अनुकूली समन्वय प्रसार ट्रांसफार्मर

प्रक्रिया सुदृढ़ीकरण सीखने के लिए पुनर्परिभाषित चरण-वार लाभ के साथ स्व-निर्देशित प्रक्रिया पुरस्कार अनुकूलन

हंज़ी को कथात्मक पुलों के रूप में तैयार करना: बुजुर्ग प्रवासियों के लिए एक एआई सह-निर्माण कार्यशाला

प्रसार नीति के साथ वितरणात्मक सॉफ्ट एक्टर-आलोचक

स्काईवर्क-रिवॉर्ड-V2: मानव-AI तालमेल के माध्यम से वरीयता डेटा क्यूरेशन को बढ़ाना

एज नेटवर्क पर तेजी से एआई मॉडल विभाजन

वाक्यों से अनुक्रम तक: जैविक प्रणालियों में भाषाओं पर पुनर्विचार

एमटीसीनेट: 4डी अल्ट्रासाउंड में मिट्रल वाल्व सेगमेंटेशन के लिए गति और टोपोलॉजी संगतता निर्देशित शिक्षण

होरस: अनिश्चितता के तहत अविश्वसनीय प्रतिनिधिमंडल के लिए एक प्रोटोकॉल

तर्क का मिश्रण: बड़े भाषा मॉडल को अनुकूली रणनीतियों के साथ तर्क करना सिखाएं

सामान्यीकृत द्वि-हाथीय हेरफेर की बेंचमार्किंग: CVPR 2025 MEIS कार्यशाला में रोबोट्विन दोहरे-हाथ सहयोग चुनौती

जनरेटिव एआई के लिए रेड टीमिंग, एक अकादमिक मेडिकल सेंटर में कॉपीराइट-केंद्रित अभ्यास पर रिपोर्ट पूरी की गई

AirV2X: एकीकृत एयर-ग्राउंड वाहन-से-सबकुछ सहयोग

उन्नत प्रतिकूल हस्तांतरणीयता के लिए अर्थपूर्ण संरचना-जागरूक जनरेटिव हमले

सुदृढ़ीकरण सीखने द्वारा जमे हुए एलएलएम को संरेखित करना: एक पुनरावृत्त पुनर्वजन-फिर-अनुकूलन दृष्टिकोण

विनियमन में पूर्वानुमानात्मक और उत्पादक एआई में अंतर करना

क्या यह सिर्फ़ एक सर्वेक्षण नहीं है? कोडिंग के लिए बड़े भाषा मॉडल का उपयोग करना सर्वेक्षण प्रेरणा पर जर्मन ओपन-एंडेड सर्वेक्षण प्रतिक्रियाएँ

प्रसार मॉडल के साथ पाठ-जागरूक छवि बहाली

एलएलएम-जनरेटेड पासवर्ड नीतियां कितनी अच्छी हैं?

फ़ीचर एम्बेडिंग की व्याख्या योग्य तुलना और संरेखण की ओर

एलएलएम समानता पहचान और परिवार वर्गीकरण के लिए ग्रेडिएंट-आधारित मॉडल फिंगरप्रिंटिंग

बड़े पैमाने पर एआई मॉडल की तैनाती के साथ बुद्धिमान निम्न-ऊंचाई वाली अर्थव्यवस्था को सशक्त बनाना

बड़े पैमाने पर शहरी जटिल गतिशीलता सिमुलेशन के लिए एलएलएम को शामिल करना

तंत्रिका विज्ञान में गतिशील कारणात्मक ग्राफ की परिकल्पना उत्पन्न करना: अवलोकित समय श्रृंखला के उत्पादक कारक मॉडल का लाभ उठाना

भाषाओं के बीच यात्रा: मल्टीमॉडल एलएलएम में क्रॉस-लिंगुअल संगति का बेंचमार्किंग

एआई के लिए खतरा मॉडलिंग: परिसंपत्ति-केंद्रित दृष्टिकोण का मामला

सॉकरडिफ्यूजन: गेमप्ले रिकॉर्डिंग से एंड-टू-एंड ह्यूमनॉइड रोबोट सॉकर सीखने की ओर

PAD: बहु-मॉडल भूमि आवरण वर्गीकरण के लिए चरण-आयाम वियुग्मन संलयन

सहमति मूल्यों के लिए सार्थकता सूचकांक

अभिव्यंजक तंत्रिका वास्तुकला खोज स्थानों में हस्तांतरणीय सरोगेट्स

डिजिटल ट्विन्स का उपयोग करके गोपनीयता-संरक्षण ऑपरेटिंग रूम वर्कफ़्लो विश्लेषण

एनाटॉमी-अवेयर पोस्ट-प्रोसेसिंग के साथ अनिश्चितता-निर्देशित मोटे-से-बारीक ट्यूमर विभाजन

सीएमडी-एचएआर: पहनने योग्य मानव गतिविधि पहचान के लिए क्रॉस-मोडल डिसेन्टेंगलमेंट

कमांडर-जीपीटी: मल्टी-मोडल लार्ज लैंग्वेज मॉडल की व्यंग्य पहचान क्षमता को पूरी तरह से उन्मुक्त करना

निष्पक्ष सीएमआर विभाजन के लिए समझ-सूचित पूर्वाग्रह शमन

HAPI: मानव वरीयताओं से रोबोट के चेहरे के भाव सीखने का एक मॉडल

MaizeField3D: विविधता पैनल से खेत में उगाए गए मक्के का एक क्यूरेटेड 3D पॉइंट क्लाउड और प्रक्रियात्मक मॉडल डेटासेट

वासेरस्टीन दूरी विधि का उपयोग करके प्रदीपक और प्रकाश दिशा का अनुमान

चक्रीय उपयोगकर्ता एसोसिएशन के साथ पदानुक्रमित सुरक्षित एकत्रीकरण की मौलिक सीमाएं

एलएलएम - पहनने योग्य वस्तुओं और आहार से हाइपरग्लेसेमिया की संचालित भविष्यवाणी और व्यवहारिक उपचार पथों की खोज

इंटरलीव्ड गिब्स डिफ्यूजन: इंप्लिसिट कंस्ट्रेन्ट्स के साथ डिस्क्रीट-सतत डेटा उत्पन्न करना

इक्विटैबपीएफएन: एक लक्ष्य-क्रमपरिवर्तन इक्विवेरिएंट पूर्व फिटेड नेटवर्क

सर्किट-ट्यूनिंग: पैरामीटर अतिरेकता की पहचान करने और न्यूरल नेटवर्क को ठीक करने के लिए एक यंत्रवत दृष्टिकोण

EigenLoRAx: संसाधन-कुशल अनुकूलन और अनुमान के लिए प्रमुख उप-स्थानों को खोजने के लिए एडाप्टरों का पुनर्चक्रण

वास्तविक समय के अवलोकनों पर जनरेटिव मॉडल से ट्रैफ़िक विसंगतियों को सीखना

व्यापक GPU त्वरण के लिए वृक्ष-आधारित आनुवंशिक प्रोग्रामिंग में जनसंख्या-स्तरीय समानांतरता को सक्षम करना

पैरामीटर बनाम FLOPs: विशेषज्ञों के मिश्रण भाषा मॉडल के लिए इष्टतम विरलता हेतु स्केलिंग नियम

डाउनस्ट्रीम मॉडल प्रदर्शन में डेटा संरेखण के महत्व का आकलन

नमूनों की एक छोटी संख्या के लिए क्वांटम-संवर्धित कारण संबंधी खोज

भाषा निर्माण के लिए चरित्र चित्रण पर: मतिभ्रम, चौड़ाई और स्थिरता का परस्पर संबंध

टोकन प्रीपेंडिंग: एलएलएम से बेहतर वाक्य एम्बेडिंग प्राप्त करने के लिए एक प्रशिक्षण-मुक्त दृष्टिकोण

COEF-VQ: कैस्केडेड मल्टीमॉडल LLM फ्रेमवर्क के माध्यम से लागत-कुशल वीडियो गुणवत्ता की समझ

GeMID: IoT डिवाइस पहचान के लिए सामान्यीकरण योग्य मॉडल

नेक्स्ट-टोकन भविष्यवाणी कार्य प्रूफ जेनरेशन में एलएलएम प्रशिक्षण के लिए इष्टतम डेटा ऑर्डरिंग मानता है

क्या जटिल प्रश्नों का उत्तर देना सचमुच जटिल है?

सिमेंटिक-टोपो-मेट्रिक प्रतिनिधित्व के माध्यम से हवाई दृष्टि और भाषा नेविगेशन निर्देशित एलएलएम रीजनिंग

जॉब शॉप शेड्यूलिंग के लिए डिस्पैच सीखने के लिए ऑफ़लाइन सुदृढीकरण सीखना

स्पाइकिंग न्यूरल नेटवर्क की ऊर्जा दक्षता पर पुनर्विचार

औद्योगिक परीक्षण रखरखाव प्रक्रियाओं में बड़े भाषा मॉडल के एकीकरण की खोज

इकोकार्डियोग्राफी जांच आंदोलन मार्गदर्शन के लिए अनुक्रम-जागरूक पूर्व प्रशिक्षण

मस्तिष्क एमआरआई के लिए शारीरिक आधार मॉडल

क्राउडसोर्स्ड शोर लेबल से सीखना: एक सिग्नल प्रोसेसिंग परिप्रेक्ष्य

निष्पक्षता की दिशा में अव्यक्त वर्ग विश्लेषण का उपयोग करके कई समूहों के भीतर क्रॉस-सेक्टोरल इंटरसेक्टिंग विसंगतियों को निर्धारित करना

अतिरिक्त शब्दावली के माध्यम से बायोमेडिकल प्रकाशनों में एलएलएम-सहायता प्राप्त लेखन में तल्लीनता

XAI सिस्टम में उपयोगकर्ता विश्वास के एक नए माप की ओर

ऑनलाइन शिक्षा में मदद मांगकर आपदा से बचें

अनिश्चितता-जागरूक शिक्षक शिक्षण और छात्र-छात्र सहयोगात्मक शिक्षण के माध्यम से दूर-पर्यवेक्षित नामित इकाई पहचान की मजबूती में सुधार करना

पैमाने से परे: प्राकृतिक भाषा डेटा में परिवर्तनशीलता के लिए डेटा गुणवत्ता मीट्रिक के रूप में विविधता गुणांक

कर्नेल घनत्व बायेसियन व्युत्क्रम सुदृढीकरण सीखना

सन्निहित एआई एजेंट: विश्व का मॉडलिंग

माइंड2वेब 2: एजेंट-एज-ए-जज के साथ एजेंटिक सर्च का मूल्यांकन

एआई फ्लो: परिप्रेक्ष्य, परिदृश्य और दृष्टिकोण

उत्तर सेट प्रोग्रामिंग में सशर्त तर्क के लिए एक रूपरेखा

बड़े भाषा मॉडल के युग में ऑटोफ़ॉर्मलाइज़ेशन: एक सर्वेक्षण

एजेंटिक एआई प्रक्रिया अवलोकनीयता: व्यवहारगत परिवर्तनशीलता की खोज

आर्टिफिशियल इंटेलिजेंस इंडेक्स रिपोर्ट 2025

एमएपीएस: विशेषज्ञ स्तर के भौतिक विज्ञान में बहु-मोडल तर्क को आगे बढ़ाना

XGeM: मल्टीमॉडल मेडिकल डेटा जेनरेशन के लिए एक मल्टी-प्रॉम्प्ट फाउंडेशन मॉडल

विरल फ़ीचर-स्तरीय बाधाओं का उपयोग करके प्रत्यक्ष वरीयता अनुकूलन

अपर्यवेक्षित संज्ञान

शहरी क्षेत्र पूर्व-प्रशिक्षण और संकेत: एक ग्राफ-आधारित दृष्टिकोण

रोड ग्राफ जेनरेटर: जीपीएस डेटा से निर्माण स्थलों पर सड़कों का मानचित्रण

पॉइंट3आर: स्पष्ट स्थानिक पॉइंटर मेमोरी के साथ स्ट्रीमिंग 3डी पुनर्निर्माण

लाइटरियलिटी: RGB-D स्कैन से ग्राफ़िक्स-तैयार 3D दृश्य पुनर्निर्माण

भाषा मॉडल मूल्यांकन के लिए उत्तर मिलान बहुविकल्पीय से बेहतर प्रदर्शन करता है

DHOL में सबटाइपिंग - विस्तारित प्रीप्रिंट

MOTIF: एलएलएम में सुदृढ़ीकरण फाइन-ट्यूनिंग के माध्यम से मॉड्यूलर सोच

यूएसएडी: एक अप्रशिक्षित डेटा संवर्धन स्थानिक-कालिक ध्यान प्रसार नेटवर्क

व्यावहारिक चरण परिवर्तन के साथ RIS-सहायता प्राप्त mmWave MIMO सिस्टम में DNN-आधारित प्रीकोडिंग

SynapseRoute: दोहरे-राज्य बड़े भाषा मॉडल पर एक ऑटो-रूट स्विचिंग फ्रेमवर्क

स्व-सुधार बेंच: एलएलएम में स्व-सुधार ब्लाइंड स्पॉट को उजागर करना और संबोधित करना

बहु-एजेंट श्रवण दृश्य विश्लेषण

फास्ट और सिंप्लेक्स: ट्राइटन में 2-सिंप्लिशियल ध्यान

डिजाइन द्वारा संश्लेषणीय: आणविक एनालॉग पीढ़ी के लिए एक रेट्रोसिंथेसिस-निर्देशित रूपरेखा

वैश्विक संदर्भ के साथ रैखिक ध्यान: दृष्टि और भौतिकी के लिए एक बहुध्रुवीय ध्यान तंत्र

फ्रंटियर एलएलएम में स्टेग्नोग्राफ़िक क्षमताओं के शुरुआती संकेत

मेटा सेकएलाइन: त्वरित इंजेक्शन हमलों के खिलाफ एक सुरक्षित फाउंडेशन एलएलएम

फेयरह्यूमन: डिफ्यूजन मॉडल में न्यूनतम संभावित विलंब निष्पक्षता के साथ मानव छवि निर्माण में हाथ और चेहरे की गुणवत्ता को बढ़ाना

एपीटी: सीमित डेटा वाले प्रसार मॉडल के लिए अनुकूली व्यक्तिगत प्रशिक्षण

ASDA: स्व-पर्यवेक्षित प्रतिनिधित्व सीखने के लिए ऑडियो स्पेक्ट्रोग्राम विभेदक ध्यान तंत्र

फास्ट और सिंप्लेक्स: ट्राइटन में 2-सिंप्लिशियल ध्यान

Created by

Haebom

लेखक

और्को रॉय, टिमोथी चाउ, साई सूर्या डुव्वुरी, सिजिया चेन, जिकाओ यू, ज़ियाओडोंग वांग, मंज़िल ज़हीर, रोहन अनिल

रूपरेखा

यह पेपर टोकन दक्षता में सुधार करने के लिए एक नई वास्तुकला प्रस्तुत करता है, इस वास्तविकता को ध्यान में रखते हुए कि बड़े पैमाने पर भाषा मॉडल (एलएलएम) कम्प्यूटेशनल बाधाओं के बजाय डेटा बाधाओं के अधीन हैं। हम एक 2-सरलीकृत ट्रांसफॉर्मर का प्रस्ताव करते हैं, जो पारंपरिक डॉट-प्रोडक्ट ध्यान को एक ट्रिलिनियर फ़ंक्शन में सामान्यीकृत करता है, और प्रयोगात्मक रूप से प्रदर्शित करता है कि यह ट्राइटन कर्नेल का उपयोग करके एक कुशल कार्यान्वयन के माध्यम से मानक ट्रांसफॉर्मर पर बेहतर टोकन दक्षता प्राप्त करता है। विशेष रूप से, हम प्रदर्शित करते हैं कि समान आकार के मॉडल गणित, कोडिंग, तर्क और तर्क-संबंधी कार्यों के लिए एक निश्चित टोकन बजट के तहत डॉट-प्रोडक्ट ध्यान-आधारित मॉडल से बेहतर प्रदर्शन करते हैं, और हम ज्ञान और तर्क कार्यों के लिए स्केलिंग कानून के घातीय परिवर्तन का मात्रात्मक विश्लेषण करते हैं।

__T87200_, T87201___

•

Takeaways:

◦

हम टोकन-कुशल एलएलएम आर्किटेक्चर की आवश्यकता पर प्रकाश डालते हैं और प्रस्तावित करते हैं कि 2-सरल समग्र ट्रांसफार्मर इसके लिए एक आशाजनक समाधान है।

◦

हम मौजूदा स्केलिंग कानूनों की सीमाओं को इंगित करते हैं और डेटा-प्रतिबंधित वातावरण में नए स्केलिंग कानूनों के प्रस्ताव की संभावना दर्शाते हैं।

◦

हम प्रयोगात्मक रूप से गणित, कोडिंग, तर्क और तर्क सहित विशिष्ट कार्यों में दो सरल जटिल ट्रांसफॉर्मर्स के बेहतर प्रदर्शन का प्रदर्शन करते हैं।

•

Limitations:

◦

यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है कि क्या प्रस्तावित वास्तुकला के प्रदर्शन सुधारों को सभी प्रकार के कार्यों के लिए सामान्यीकृत किया जा सकता है।

◦

ट्राइटन कर्नेल पर निर्भर कार्यान्वयन की व्यापकता सीमित हो सकती है क्योंकि वे विशिष्ट हार्डवेयर वातावरण पर निर्भर होते हैं।

◦

यह सत्यापित करने के लिए अतिरिक्त प्रयोगों की आवश्यकता है कि पेपर में प्रस्तुत स्केलिंग कानून में परिवर्तन कितने सामान्य हैं और क्या वे अन्य आर्किटेक्चर पर लागू होते हैं।

पीडीएफ देखें

Made with Slashpage

दैनिक अर्क्सिव

फास्ट और सिंप्लेक्स: ट्राइटन में 2-सिंप्लिशियल ध्यान

लेखक

रूपरेखा

____T87200_____, ____T87201_____

__T87200_, T87201___