[공지사항]을 빙자한 안부와 근황

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

EgoVLA: अहंकारी मानव वीडियो से दृष्टि-भाषा-क्रिया मॉडल सीखना

उच्च निष्ठा, उत्पादक प्रसार मॉडल के लिए संरचनागत असतत अव्यक्त कोड

MERA कोड: विभिन्न कार्यों में कोड निर्माण के मूल्यांकन के लिए एक एकीकृत ढाँचा

प्रगतिशील परत जमने के साथ साइट-स्तर पर बारीक ट्यूनिंग: अत्यंत समयपूर्व जन्मे शिशुओं में पहले दिन के छाती के रेडियोग्राफ से ब्रोंकोपल्मोनरी डिस्प्लेसिया की मजबूत भविष्यवाणी की ओर

जलवायु-प्रासंगिक रोबोटिक्स अनुसंधान के लिए एक रोडमैप

निष्पक्षता पर्याप्त नहीं: एआई-संचालित रिज्यूमे स्क्रीनिंग में ऑडिटिंग क्षमता और अंतर्विभागीय पूर्वाग्रह

MMOne: एक दृश्य में कई तौर-तरीकों का प्रतिनिधित्व

SWE-MERA: सॉफ्टवेयर इंजीनियरिंग कार्यों पर बड़े भाषा मॉडल का एजेंटिक मूल्यांकन करने के लिए एक गतिशील बेंचमार्क

कोडअसिस्टबेंच (CAB): मल्टी-टर्न चैट-आधारित कोड सहायता के लिए डेटासेट और बेंचमार्किंग

फाउंडेशन मॉडल की (लगभग) निःशुल्क मोडैलिटी सिलाई

क्रॉस-मोडल सिमेंटिक गाइडेंस और मल्टी-लेवल फ़ीचर फ़्यूज़न के साथ CLIP और 3D U-Net पर आधारित एक ब्रेन ट्यूमर सेगमेंटेशन विधि

केएन: मल्टीमॉडल फर्जी समाचारों का पता लगाने के लिए ज्ञान संवर्धन और भावना मार्गदर्शन नेटवर्क

THOR: ऑन-डिमांड पुनर्प्राप्ति के लिए ट्रांसफॉर्मर ह्यूरिस्टिक्स

सीलगार्ड: एलएलएम सॉफ्टवेयर प्रणालियों के लिए दक्षिण पूर्व एशियाई भाषाओं में बहुभाषी वार्तालापों की सुरक्षा

KeyRe-ID: वीडियो में पार्ट-अवेयर रिप्रेजेंटेशन का उपयोग करके मुख्य बिंदु-निर्देशित व्यक्ति पुनः-पहचान

एलएलएम सर्वेक्षण प्रतिक्रियाओं में त्वरित विक्षोभ से मानव-सदृश पूर्वाग्रहों का पता चलता है

जेमिनी 2.5: उन्नत तर्क, बहुविधता, दीर्घ संदर्भ और अगली पीढ़ी की एजेंटिक क्षमताओं के साथ सीमा को आगे बढ़ाना

सटीक डायनेमिक्स मॉडल के माध्यम से सेंसर रहित बल नियंत्रण का उपयोग करके तेज़ द्विपक्षीय टेलीऑपरेशन और अनुकरण सीखना

कठिनाई-निर्देशित नमूनाकरण के साथ कार्य-विशिष्ट जनरेटिव डेटासेट आसवन

VIDEE: बुद्धिमान एजेंटों के साथ पाठ विश्लेषण का दृश्य और इंटरैक्टिव अपघटन, निष्पादन और मूल्यांकन

रीकोड: सुदृढीकरण सीखने के साथ कोड एपीआई ज्ञान को अद्यतन करना

भाषा मॉडल की व्याख्या के लिए क्रॉस-लेयर डिस्क्रीट अवधारणा खोज

उन्नत प्रतिकूल हस्तांतरणीयता के लिए अर्थ संरचना-जागरूक जनरेटिव हमले

MEM1: कुशल दीर्घकालिक एजेंटों के लिए स्मृति और तर्क का समन्वय करना सीखना

बहु-आवृत्ति जनसंख्या-आधारित प्रशिक्षण

आलोचना-जीआरपीओ: प्राकृतिक भाषा और संख्यात्मक प्रतिक्रिया के साथ एलएलएम तर्क को आगे बढ़ाना

SLM को बेहतर बनाएँ या LLM को प्रेरित करें? लो-कोड वर्कफ़्लो उत्पन्न करने का मामला

ContextQFormer: मल्टी-टर्न मल्टी-मोडल वार्तालापों के लिए एक नई संदर्भ मॉडलिंग विधि

GPU प्रदर्शन पोर्टेबिलिटी के लिए ऑटोट्यूनिंग की आवश्यकता होती है

ड्रीमबूथ और इंस्टेंटआईडी में बेहतर चेहरे की समानता के लिए संवर्द्धन के माध्यम से सिंथेटिक डेटा उत्पन्न करना

कोरल प्रोटोकॉल: एजेंटों के इंटरनेट को जोड़ने वाला खुला बुनियादी ढांचा

मैक-ट्यूनिंग: उन्नत ज्ञान सीमा जागरूकता के साथ एलएलएम बहु-रचनात्मक समस्या तर्क

फ़ेडरेटेड लर्निंग: गोपनीयता-संरक्षण सहयोगी बुद्धिमत्ता पर एक सर्वेक्षण

संदर्भ-संरक्षण टोकन फ़िल्टरिंग और ज्ञान ग्राफ़ के साथ LLM में नैदानिक पाठ सारांशीकरण में सुधार

टास्क-सर्किट क्वांटाइजेशन: संपीड़न के लिए ज्ञान स्थानीयकरण और व्याख्या का लाभ उठाना

जेलडैम: दृष्टि-भाषा मॉडल के लिए अनुकूली मेमोरी के साथ जेलब्रेक डिटेक्शन

केपी क्वांटम न्यूरल नेटवर्क

वेक्टरफिट: पूर्व-प्रशिक्षित फाउंडेशन मॉडल का अनुकूली एकवचन और पूर्वाग्रह वेक्टर फ़ाइन-ट्यूनिंग

अस्थिर प्रवाह के लिए डेटा-कुशल डीप ऑपरेटर नेटवर्क: भौतिकी-निर्देशित सबसैंपलिंग के साथ एक बहु-विश्वसनीयता दृष्टिकोण

क्रॉस-डोमेन डेटा फ़्यूज़न के लिए एक आधार मॉडल के साथ सार्वभौमिक मानव गतिशीलता पैटर्न सीखना

जियोफ्लो-एसएलएएम: गतिशील लेग्ड रोबोटिक्स के लिए एक मजबूत, टाइटली-कप्लड आरजीबीडी-इनर्शियल और लेग्ड ओडोमेट्री फ्यूजन एसएलएएम

बड़े भाषा मॉडल का उपयोग करके व्यवसाय वर्गीकरण के लिए वर्गीकरण-निर्देशित तर्क के साथ एक बहु-चरणीय ढांचा

सटीक ग्राफ़ प्रतिनिधित्व के लिए मल्टी-व्यू नोड प्रूनिंग

वी-मैक्स: स्वायत्त ड्राइविंग के लिए एक सुदृढ़ीकरण शिक्षण ढांचा

आश्चर्यशीलता के माध्यम से सीखने के माध्यम से समयरेखाओं का व्याख्यात्मक परिवर्तन और विश्लेषण

एआई गवर्नेंस अंतर्राष्ट्रीय मूल्यांकन सूचकांक (एजीआईएलई सूचकांक) 2024

UPCORE: संतुलित अनलर्निंग के लिए उपयोगिता-संरक्षण कोरसेट चयन

डेटा-कुशल RL के लिए ट्रांसफॉर्मर वर्ल्ड मॉडल में सुधार

एलएलएम-रिक्ग: शून्य-शॉट अनुक्रमिक अनुशंसा के लिए एक अर्थगत पूर्वाग्रह-जागरूक ढांचा

SIDDA: समतुल्य तंत्रिका नेटवर्क के साथ छवि वर्गीकरण के लिए सिंकहॉर्न डायनेमिक डोमेन अनुकूलन

सशर्त जनरेटिव एडवर्सेरियल नेटवर्क (CGANs) का उपयोग करके आकाशगंगा फोटोमेट्रिक रेडशिफ्ट का निर्धारण

स्पीच-फोरेंसिक्स: व्यापक सिंथेटिक स्पीच डेटासेट स्थापना और विश्लेषण की ओर

एमआरजेन: कम प्रतिनिधित्व वाले एमआरआई तौर-तरीकों के लिए विभाजन डेटा इंजन

आईओपीओ: इनपुट-आउटपुट वरीयता अनुकूलन के माध्यम से जटिल निर्देश के साथ एलएलएम को सशक्त बनाना

विज़ुओमोटर अनुकरण अधिगम के लिए ऑब्जेक्ट-केंद्रित कीपॉइंट व्युत्क्रम नीति के साथ आउट-ऑफ-डिस्ट्रीब्यूशन पुनर्प्राप्ति

व्याख्या योग्य एआई एल्गोरिदम की बोधगम्यता पर उपयोगकर्ता अध्ययन से प्राप्त डेटासेट

बड़े दृष्टि-भाषा मॉडल के लिए एकीकृत त्रिक-स्तरीय मतिभ्रम मूल्यांकन

LoRA संपन्न RITE: LoRA अनुकूलन के लिए मजबूत अपरिवर्तनीय परिवर्तन संतुलन

बिंदुवार V-उपयोग योग्य जानकारी का उपयोग करके बहु-कार्य सीखने के लिए कार्य समूहों की पहचान करना

परिभाषित करें: कारक प्रोफाइल पर अनुरूप तर्क के साथ निर्णय लेना

मुख्य मंच नृत्य संगीत के लिए उप-शैली वर्गीकरण की बेंचमार्किंग

एआई-संवर्धित सुरक्षा पाइपलाइनों में अनिश्चितता प्रसार को नज़रअंदाज़ करने के जोखिम

मेडपिक्स 2.0: उन्नत एआई अनुप्रयोगों के लिए एक व्यापक मल्टीमॉडल बायोमेडिकल डेटा सेट, जिसमें पुनर्प्राप्ति संवर्धित पीढ़ी और ज्ञान ग्राफ़ शामिल हैं

स्थानिक-कालिक तंत्रिका नेटवर्क सिग्नलिंग मॉडल के गतिशील व्यवहार का अनुमान लगाने के लिए क्वांटम सुपरपोजिशन का लाभ उठाना

सबसे खराब श्रेणी की त्रुटि को सीमित करना: एक बढ़ावा देने वाला दृष्टिकोण

टीबीडिटेक्टर: प्रोवेंस ग्राफ के साथ उन्नत स्थायी खतरों के लिए ट्रांसफार्मर-आधारित डिटेक्टर

मशीन लर्निंग सिस्टम: डेटा-उन्मुख दृष्टिकोण से एक सर्वेक्षण

ऐम: पूर्ण-स्वायत्त मल्टी-एजेंट फ्रेमवर्क की ओर

स्मार्टथिंकर: चरण-स्तरीय लंबाई नियंत्रण द्वारा तर्क को संपीड़ित और संरक्षित करना सीखना

रेडी ज्यूरिस्ट वन: गतिशील वातावरण में कानूनी खुफिया जानकारी के लिए भाषा एजेंटों की बेंचमार्किंग

एनटीआरएल: डंजन्स एंड ड्रैगन्स में गतिशील कठिनाई समायोजन के लिए सुदृढीकरण सीखने के माध्यम से मुठभेड़ निर्माण

बहु-दिमाग़ से निर्णय लेना: क्या ज़्यादा नज़रिए का मतलब कम पूर्वाग्रह है? बहु-एजेंट आधारित एलएलएम-एज़-जज में पूर्वाग्रह प्रवर्धन और प्रतिरोध पर

एक्शनस्टूडियो: बड़े एक्शन मॉडल के डेटा और प्रशिक्षण के लिए एक हल्का फ्रेमवर्क

BEARCUBS: कंप्यूटर का उपयोग करने वाले वेब एजेंटों के लिए एक बेंचमार्क

म्यूज़ीरो योजना का रहस्य उजागर करना: सीखे गए मॉडल की व्याख्या करना

एलएलएम - उन्नत उपयोगकर्ता-आइटम इंटरैक्शन: अनुकूलित अनुशंसाओं के लिए एज सूचना का लाभ उठाना

वीडियोआईटीजी: निर्देशित टेम्पोरल ग्राउंडिंग के साथ मल्टीमॉडल वीडियो समझ

विज़नथिंक: सुदृढीकरण सीखने के माध्यम से स्मार्ट और कुशल विज़न भाषा मॉडल

संतुलन में असंतुलन: पीढ़ी मॉडल में ऑनलाइन अवधारणा संतुलन

अवतार-अज्ञेय पूर्व-प्रशिक्षित विश्व मॉडल के साथ अव्यक्त नीति संचालन

दृष्टि और भाषा प्रशिक्षण वर्गीकरण ज्ञान को विकसित करने में मदद करता है, लेकिन इसे मौलिक रूप से परिवर्तित नहीं करता है

तर्क-आधारित पोज़ अनुमान बेंचमार्क में विश्वसनीयता पर पुनर्विचार

एबजेन: वैज्ञानिक अनुसंधान के लिए एब्लेशन अध्ययन डिजाइन और मूल्यांकन में बड़े भाषा मॉडल का मूल्यांकन

प्राकृतिक भाषा संकेतों से एलएलएम-जनित कोड के औपचारिक सत्यापन की ओर

कृत्रिम रोबोटिक चतुर्भुजों में नेविगेशन के लिए सुदृढीकरण सीखने के एल्गोरिदम का मूल्यांकन: गाइड डॉग व्यवहार से प्रेरित एक तुलनात्मक अध्ययन

टैलेंटसीएलईएफ 2025 का अवलोकन: मानव पूंजी प्रबंधन के लिए कौशल और नौकरी पदवी की जानकारी

क्वेस्टए: प्रश्न संवर्धन के माध्यम से एलएलएम में तर्क क्षमता का विस्तार

वोक्सट्रल

क्रमचय स्थान पर बायेसियन अनुकूलन के लिए मर्ज कर्नेल

लगभग ऑर्थोगोनल फाइन-ट्यूनिंग रणनीति द्वारा समर्थित पूर्व-प्रशिक्षित विज़न ट्रांसफॉर्मर का कुशल अनुकूलन

सुरक्षित मल्टीमॉडल बड़े भाषा मॉडल के लिए स्टीयरिंग को स्वचालित करना

HATS: बड़े भाषा मॉडल में तर्कशक्ति के मूल्यांकन हेतु हिंदी सादृश्य परीक्षण सेट

वीटा: विजन-टू-एक्शन फ्लो मैचिंग पॉलिसी

$S^2M^2$: विश्वसनीय गहराई अनुमान के लिए स्केलेबल स्टीरियो मिलान मॉडल

वास्तविकता का संश्लेषण: निर्माण श्रमिकों का पता लगाने के लिए जनरेटिव एआई-संचालित प्लेटफॉर्म मिडजर्नी का लाभ उठाना

अंतर्निहित मानवीय प्रतिक्रिया से सुदृढीकरण सीखने के माध्यम से मनुष्यों और रोबोटों को संरेखित करना

SHIELD: प्रतिकूल हमलों के विरुद्ध मज़बूत डीपफ़ेक पहचान के लिए एक सुरक्षित और अत्यधिक उन्नत एकीकृत शिक्षण

प्रॉम्प्ट इंजेक्शन 2.0: हाइब्रिड AI खतरे

ऑर्बिस: ड्राइविंग वर्ल्ड मॉडल में दीर्घ-क्षितिज भविष्यवाणी की चुनौतियों पर काबू पाना

व्युत्क्रम सुदृढीकरण सीखना प्रशिक्षण के बाद बड़े भाषा मॉडल से मिलता है: मूल बातें, प्रगति और अवसर

GPU प्रदर्शन पोर्टेबिलिटी के लिए ऑटोट्यूनिंग की आवश्यकता होती है

Created by

Haebom

लेखक

बर्कहार्ड रिंगलीन, थॉमस पार्नेल, राडू स्टोइका

रूपरेखा

इस पत्र में, हम बड़े पैमाने पर भाषा मॉडल (LLM) अनुमान के प्रदर्शन में सुधार और पोर्टेबिलिटी सुनिश्चित करने के लिए एक नया दृष्टिकोण प्रस्तुत करते हैं। पारंपरिक एकल-प्लेटफ़ॉर्म निर्भरता, विक्रेता लॉक-इन और नए AI हार्डवेयर प्रवेश अवरोधों के कारण खराब पोर्टेबिलिटी की समस्याओं को दूर करने के लिए, हम एक ऐसी विधि प्रस्तावित करते हैं जो जस्ट-इन-टाइम (JIT) संकलन को व्यापक कर्नेल पैरामीटर ऑटो-ट्यूनिंग के साथ जोड़ती है। प्रदर्शन-महत्वपूर्ण LLM कर्नेल पर ध्यान केंद्रित करते हुए, हम दर्शाते हैं कि हमारी विधि 15 गुना अधिक कर्नेल पैरामीटर कॉन्फ़िगरेशन का अन्वेषण करती है, कई आयामों में उल्लेखनीय रूप से अधिक विविध कोड उत्पन्न करती है, और विक्रेता-अनुकूलित कार्यान्वयनों की तुलना में प्रदर्शन में 230% तक सुधार करती है, जबकि कर्नेल कोड का आकार 70 गुना कम करती है और मैन्युअल कोड अनुकूलन को समाप्त करती है। हमारे परिणाम इस बात पर प्रकाश डालते हैं कि GPU विक्रेताओं के बीच मॉडल पोर्टेबिलिटी में सुधार के लिए ऑटो-ट्यूनिंग एक आशाजनक दृष्टिकोण है।

Takeaways, Limitations

•

Takeaways:

◦

जेआईटी संकलन और स्वचालित ट्यूनिंग के माध्यम से एलएलएम अनुमान की पोर्टेबिलिटी और प्रदर्शन में सुधार की संभावना का सुझाव देना।

◦

विक्रेता-अनुकूलित कार्यान्वयन से बेहतर प्रदर्शन प्राप्त करने की क्षमता प्रदर्शित करता है।

◦

कर्नेल कोड आकार को कम करके और मैन्युअल अनुकूलन को समाप्त करके विकास दक्षता में वृद्धि।

◦

GPU विक्रेताओं के बीच मॉडल पोर्टेबिलिटी सुनिश्चित करने के लिए एक नई दिशा।

•

Limitations:

◦

प्रस्तुत विधि की सामान्यता और विभिन्न एलएलएम आर्किटेक्चर और आकारों पर इसकी प्रयोज्यता की जांच के लिए आगे के अध्ययन की आवश्यकता है।

◦

स्वचालित समायोजन प्रक्रिया के लिए आवश्यक कम्प्यूटेशनल लागत और समय का विश्लेषण आवश्यक है।

◦

वास्तविक अनुप्रयोग वातावरण में प्रदर्शन और स्थिरता का आगे मूल्यांकन आवश्यक है।

◦

एक विशिष्ट एलएलएम कर्नेल के लिए अनुकूलन पर ध्यान केंद्रित किया गया, अन्य क्षेत्रों में प्रदर्शन सुधार के लिए विचार का अभाव।

पीडीएफ देखें

Made with Slashpage