दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

क्रॉस-डोमेन ईईजी विश्लेषण अनुप्रयोग के लिए आधारभूत मॉडल: एक सर्वेक्षण

हाइड्रा: विरल ध्यान, विशेषज्ञों का मिश्रण और स्मृति वाला एक 1.6B-पैरामीटर स्टेट-स्पेस भाषा मॉडल

आरएल के लिए आपका रिवॉर्ड फ़ंक्शन, खोज के लिए आपका सर्वश्रेष्ठ पीआरएम है: आरएल और खोज-आधारित टीटीएस को एकीकृत करना

पेंगुइन: दीर्घकालिक समय श्रृंखला पूर्वानुमान के लिए आवधिक-नेस्टेड समूह ध्यान के साथ ट्रांसफार्मर को बढ़ाना

ग्राफ्ट: गतिशील डेटा नमूनाकरण के लिए ग्रेडिएंट-अवेयर फास्ट मैक्सवॉल तकनीक

FLAIR: आवृत्ति और स्थानीयता-जागरूक अंतर्निहित तंत्रिका अभ्यावेदन

आउटलायर डिटेक्शन के लिए यादृच्छिक पीसीए फ़ॉरेस्ट

निरंतर सीखने के लिए बहु-स्तरीय ज्ञान आसवन और गतिशील स्व-पर्यवेक्षित शिक्षण

एमसीपी-गार्ड: बड़े भाषा मॉडल अनुप्रयोगों में मॉडल संदर्भ प्रोटोकॉल अखंडता के लिए एक रक्षा ढांचा

अंतर्निहित लेबल शोर के विरुद्ध लेबल-केवल लोचदार विरूपण के माध्यम से मजबूत अर्थपूर्ण विभाजन प्रदर्शन को अनलॉक करना

हस्तलिखित गणितीय अभिव्यक्ति पहचान के लिए स्केलेबल प्रशिक्षण की ओर

सक्रिय रेडियो मानचित्र निर्माण के लिए बायेसियन-संचालित ग्राफ तर्क

एएसआर प्रदर्शन में गिरावट में ऑडियो चैनलों की भूमिका का खुलासा

समृद्ध आकृति विज्ञान के लिए टोकनीकरण पर पुनर्विचार: बीपीई और आकृति विज्ञान संरेखण पर यूनिग्राम का प्रभुत्व

रेडडिनो: लाल रक्त कोशिका विश्लेषण के लिए एक आधारभूत मॉडल

रीज़नरैंक: मज़बूत तर्क क्षमता के साथ पैसेज रैंकिंग को सशक्त बनाना

दुष्ट जुड़वाँ कौन है? अवांछित व्यवहार के लिए विभेदक लेखा परीक्षा

समता-जागरूक बाइट-पेयर एन्कोडिंग: टोकनीकरण में क्रॉस-भाषाई निष्पक्षता में सुधार

दृष्टि-भाषा मॉडल के परीक्षण-समय सामान्यीकरण के लिए मल्टी-कैश संवर्धित प्रोटोटाइप लर्निंग

क्या एलएलएम-संचालित सोशल मीडिया बॉट्स यथार्थवादी हैं?

कुशल और संदर्भ-जागरूक KGQA के लिए LLM-निर्देशित MCTS के माध्यम से गतिशील रूप से अनुकूली तर्क

शोर लेबल डोमेन अनुकूलन सीखने के लिए नेस्टेड ग्राफ छद्म-लेबल परिशोधन

एक टूलबॉक्स, हथौड़ा नहीं - मल्टी-टैग: मल्टी-टूल एग्रीगेशन के साथ गणितीय तर्क को मापना

एक सरल "पुनः प्रयास" से बहु-मोड़ एलएलएम तर्क प्राप्त हो सकता है

ज्यामिति समस्या समाधान के लिए गहन शिक्षण का एक सर्वेक्षण

सामान्यीकृत वृक्ष संपादन दूरी (GTED): कथन स्वचालितकरण के लिए एक विश्वसनीय मूल्यांकन मीट्रिक

आदर्श MHD संतुलन का तंत्रिका-नेटवर्क सॉल्वर

GPU कर्नेल वैज्ञानिक: पुनरावृत्त कर्नेल अनुकूलन के लिए एक LLM-संचालित फ्रेमवर्क

SPARE: स्वचालित प्रक्रिया पर्यवेक्षण और पुरस्कार मॉडलिंग के लिए संदर्भ-निर्देशित मूल्यांकन के साथ एकल-पास एनोटेशन

पॉइज़नस्वार्म: मॉडल क्राउडसोर्सिंग के माध्यम से सार्वभौमिक हानिकारक सूचना संश्लेषण

स्पेकएक्सटेंड: लंबे अनुक्रमों के अनुमानित डिकोडिंग के लिए एक ड्रॉप-इन संवर्द्धन

एक पाठ-आधारित अनुशंसा प्रणाली जो स्पष्ट भावात्मक स्थिति वरीयताओं का लाभ उठाती है

प्रक्रिया निगरानी में हाइब्रिड अनुकूली मॉडलिंग: अनुक्रम एनकोडर और भौतिकी-सूचित तंत्रिका नेटवर्क का लाभ उठाना

सीसीडी: आजीवन जनरेटिव मॉडलिंग के लिए निरंतर संगति प्रसार

अनुशंसा प्रणालियों के लिए खोज क्वेरी डेटासेट को बढ़ाना और स्केल करना

पुनर्निर्माण के बिना फूरियर पाइकोग्राफिक माइक्रोस्कोपी माप से प्रत्यक्ष छवि वर्गीकरण

मेडअरबीक्यू: अरबी चिकित्सा कार्यों पर बड़े भाषा मॉडल की बेंचमार्किंग

रोगात्मक भाषण में स्वचालित गुमनामीकरण के अवधारणात्मक निहितार्थ

प्लगइन ऑन्टोलॉजी के माध्यम से त्रिपक्षीय-ग्राफआरएजी

DIDS: बड़े भाषा मॉडल प्रशिक्षण के लिए डोमेन प्रभाव-जागरूक डेटा नमूनाकरण

MSCCL++: अत्याधुनिक AI अनुप्रयोगों के लिए GPU संचार अमूर्तता पर पुनर्विचार

FedEFC: शोर लेबल के विरुद्ध उन्नत अग्र सुधार का उपयोग करते हुए फ़ेडरेटेड लर्निंग

उपयोगिता-केंद्रित एनोटेशन के लिए एलएलएम का लाभ उठाना: पुनर्प्राप्ति और आरएजी के लिए मैन्युअल प्रयास को कम करना

CO-बेंच: कॉम्बिनेटोरियल ऑप्टिमाइज़ेशन के लिए एल्गोरिथम खोज में भाषा मॉडल एजेंटों की बेंचमार्किंग

तुलनात्मक स्पष्टीकरण: मानव-इन-द-लूप वरीयता चयन के लिए निर्देशित निर्णय लेने की व्याख्या

जेन्सन-शैनन स्कोर आसवन का उपयोग करके टेक्स्ट-टू-3D जनरेशन

क्या बड़े भाषा मॉडल मानवीय प्रतिक्रियाओं का अनुकरण कर सकते हैं? तापन-संबंधी विकल्पों के संदर्भ में घोषित वरीयता प्रयोगों का एक केस स्टडी

सौम्य आयात विषाक्त: प्रतिकूल रूपकों के माध्यम से भाषा मॉडल को जेलब्रेक करना

छोटे-बड़े भाषा मॉडल संगतता सत्यापन के माध्यम से सहयोगात्मक रुख का पता लगाना

PAR-AdvGAN: प्रगतिशील ऑटो-रिग्रेशन AdvGAN के साथ प्रतिकूल हमले की क्षमता में सुधार

सोटेरिया: बहुभाषी सुरक्षा संरेखण के लिए भाषा-विशिष्ट कार्यात्मक पैरामीटर संचालन

एक उदाहरण दिखाया, कई अवधारणाएँ ज्ञात! गणितीय LLM में प्रति-उदाहरण-आधारित संकल्पनात्मक तर्क

शीर्ष-थीटा ध्यान: क्षतिपूर्ति थ्रेशोल्डिंग द्वारा ट्रांसफॉर्मर्स को स्पर्सिफाई करना

सिग्मा: शेफ-सूचित ज्यामितीय बहु-एजेंट पथ-खोज

क्रिया के रूप में स्कोर: सतत-समय सुदृढीकरण अधिगम द्वारा विसरण जनरेटिव मॉडल का सूक्ष्म समायोजन

गोपनीयता-जागरूक मानसिक स्वास्थ्य एआई मॉडल की ओर: प्रगति, चुनौतियाँ और अवसर

जनरेटिव एआई और शमन रणनीतियों की नैतिक चिंताएँ: एक व्यवस्थित मानचित्रण अध्ययन

क्या मतिभ्रम मददगार हो सकता है? दवा खोज के लिए LLM को बढ़ावा देना

एआई-संचालित सीपीएस-सक्षम शहरी परिवहन डिजिटल ट्विन: विधियाँ और अनुप्रयोग

लर्नएलएम: सीखने के लिए जेमिनी को बेहतर बनाना

कंप्यूट-कुशल मॉडल लैडर के माध्यम से कार्य स्केलिंग नियमों की स्थापना

संबंधपरक विसंगतियों को हल करने के दो रास्ते

प्रदर्शन का दबाव एआई-सहायता प्राप्त निर्णय लेने को कैसे प्रभावित करता है

ऑटोवेरस: रस्ट कोड के लिए स्वचालित प्रूफ जनरेशन

संतुलन: एलएलएम के लिए प्राथमिकता रणनीतियाँ - डिज़ाइन्ड रेस्टलेस बैंडिट रिवॉर्ड्स

मल्टीमॉडल सिमेंटिक एम्बेडिंग के लिए ऑर्डर-प्रिजर्विंग आयाम न्यूनीकरण

स्वास्थ्य सेवा के लिए भावना तर्क

व्युत्क्रम समस्याओं को हल करने के लिए पैच-आधारित प्रसार मॉडल के माध्यम से छवि प्राथमिकताओं को सीखना

अप्रशिक्षित तंत्रिका संयोजन अनुकूलन के लिए एक प्रसार मॉडल ढांचा

जनरेटिव एआई में चुनौतियों और अवसरों पर

स्किप कनेक्शन के साथ पूर्णतः कन्वोल्यूशनल और डिफरेंशियल फ्रंट एंड के माध्यम से ग्रेडिएंट हमलों के प्रति उल्लेखनीय लचीलेपन का एक अनोखा मामला

व्याख्या योग्य बायेसियन अनुकूलन

ऑनलाइन शिक्षा में लक्ष्य-उन्मुख बुद्धिमान ट्यूटरिंग प्रणालियों की ओर

असतत अनुकूलन के माध्यम से अप्रशिक्षित ऑटोमेटा सीखना

विशेषज्ञ-निर्देशित वृहद भाषा मॉडल तर्क के माध्यम से स्वचालित अनुकूलन मॉडलिंग

ऑन-द-फ्लाई एलटीएलएफ संश्लेषण के लिए एक रचनात्मक ढांचा

हाइपर: साहित्य-आधारित परिकल्पना निर्माण और उत्पत्ति के साथ आसवन

लंबाई-जागरूक अनुकूलन के माध्यम से तर्क मॉडल के लिए कुशल आरएल प्रशिक्षण

VERUS-LM: प्रतीकात्मक तर्क के साथ LLM को संयोजित करने के लिए एक बहुमुखी ढांचा

गणितीय तर्क के लिए मोटे-से-सूक्ष्म प्रक्रिया पुरस्कार मॉडलिंग

प्रोत्साहन और अभ्यास प्रदान करके कृत्रिम तंत्रिका नेटवर्क के लिए पारंपरिक चुनौतियों पर काबू पाना

एमवी-आरएजी: पुनर्प्राप्ति संवर्धित मल्टीव्यू डिफ्यूजन

स्वायत्त नेविगेशन के लिए पदानुक्रमित निर्णय लेना: चार-पहिया स्वतंत्र स्टीयरिंग और ड्राइविंग प्रणालियों में गहन सुदृढीकरण सीखने और फ़ज़ी लॉजिक को एकीकृत करना

किडनी कैंसर में सटीक ऑन्कोलॉजी के लिए रोग-केंद्रित दृष्टि-भाषा आधार मॉडल

विरल लेकिन गलत: गलत L0 विरल ऑटोएनकोडर्स में गलत विशेषताओं की ओर ले जाता है

वास्तविक-विश्व छवि सुपर-रिज़ॉल्यूशन के लिए समय-जागरूक एक चरण प्रसार नेटवर्क

अवमंदित नेस्टरोव त्वरण के साथ उन्नत NIRMAL अनुकूलक: एक तुलनात्मक विश्लेषण

आरएल न तो रामबाण है और न ही मृगतृष्णा: एलएलएम के लिए पर्यवेक्षित बनाम सुदृढीकरण सीखने की बारीकियां समझना

खुली दुनिया का पता लगाने की दिशा में: एक सर्वेक्षण

स्थिर अणु निर्माण के लिए सुदृढीकरण अधिगम के साथ प्रसार मॉडल का मार्गदर्शन करना

शहरी 3D वातावरण में कुशल नेविगेशन के लिए यूएवी पथ नियोजन एल्गोरिदम का तुलनात्मक विश्लेषण

FLAMES: डेटा संश्लेषण पाइपलाइन के सूक्ष्म विश्लेषण के माध्यम से LLM गणित तर्क में सुधार

शून्य-शॉट सुदृढीकरण सीखने पर

जोड़ीदार रैंकिंग के माध्यम से पोस्ट हॉक रिग्रेशन परिशोधन

सेफस्पेस: डिजिटल सुरक्षा और भावनात्मक कल्याण के लिए एक एकीकृत वेब एप्लिकेशन

FraPPE: तेज़ और कुशल वरीयता-आधारित शुद्ध अन्वेषण

कैंसर लक्षण वर्णन के लिए ऊतक विज्ञान और ट्रांसक्रिप्टोमिक्स का विच्छेदित बहु-मॉडल शिक्षण

HOSt3R: RGB छवियों से की-पॉइंट-मुक्त हैंड-ऑब्जेक्ट 3D पुनर्निर्माण

PediatricsMQA: एक बहु-मोडल बाल चिकित्सा प्रश्न उत्तर बेंचमार्क

ओपेरा: एक सुदृढीकरण सीखना - तर्क-उन्मुख बहु-हॉप पुनर्प्राप्ति के लिए उन्नत ऑर्केस्ट्रेटेड प्लानर-एग्जीक्यूटर आर्किटेक्चर

स्वचालित डिबगिंग के लिए यूनिट परीक्षण उत्पन्न करना सीखना

Created by

Haebom

लेखक

अर्चिकी प्रसाद, एलियास स्टेंगल-एस्किन, जस्टिन चिह-याओ चेन, ज़ैद खान, मोहित बंसल

रूपरेखा

यह शोधपत्र त्रुटि-प्रवण इकाई परीक्षण इनपुट उत्पन्न करते समय, बिना सही उत्तर के इकाई परीक्षण आउटपुट का सटीक पूर्वानुमान लगाने के बीच के अंतर को उजागर करता है। इस समस्या का समाधान करने के लिए, हम UTGen का प्रस्ताव करते हैं, जो LLM को त्रुटि-प्रवण इकाई परीक्षण इनपुट उत्पन्न करने और कार्य विवरणों के आधार पर अपेक्षित आउटपुट को सही करने के लिए प्रशिक्षित करता है। चूँकि मॉडल-जनित परीक्षणों में शोर हो सकता है, इसलिए हम UTDebug के माध्यम से परीक्षण-समय गणनाओं का लाभ उठाकर UT आउटपुट पूर्वानुमानों को बेहतर बनाते हैं। इसके अलावा, हम ओवरफिटिंग को रोकने और LLM डिबगिंग को प्रभावी ढंग से समर्थन देने के लिए कई जनित UT के आधार पर संपादनों को सत्यापित और बैकट्रैक करते हैं। प्रायोगिक परिणाम दर्शाते हैं कि त्रुटि-प्रवण UT इनपुट और सही UT आउटपुट दोनों को मापने वाले मेट्रिक्स पर UTGen अन्य LLM-आधारित बेसलाइन मॉडलों से 7.59% बेहतर प्रदर्शन करता है। UTDebug के साथ संयुक्त होने पर, यह अन्य LLM-आधारित UT जनरेशन बेसलाइन मॉडलों की तुलना में, HumanEvalFix और MBPP+ के अधिक चुनौतीपूर्ण डिबगिंग पार्टिशन पर Qwen2.5 32B की पास@1 सटीकता को क्रमशः 3.17% और 12.35% तक बेहतर बनाता है। इसके अलावा, Qwen2.5 32B पर आधारित UTGen मॉडल से प्राप्त फीडबैक ने GPT-4o जैसे अत्याधुनिक LLM के डिबगिंग प्रदर्शन को 13.8% तक बेहतर बनाया। अंत में, UTGen दर्शाता है कि HumanEval+ के सर्वश्रेष्ठ 10 नमूनों के साथ Qwen2.5 7B का उपयोग करके, यह कोड शुद्धता निर्धारित करने में अत्याधुनिक 8B रिवॉर्ड मॉडल से 4.43% बेहतर प्रदर्शन करता है।

Takeaways, Limitations

•

Takeaways:

◦

हम त्रुटियों को प्रकट करने वाले यूनिट परीक्षण इनपुट उत्पन्न करने और सटीक आउटपुट की भविष्यवाणी करने के बीच के समझौते को हल करने के लिए एक नया दृष्टिकोण प्रस्तुत करते हैं।

◦

UTGen और UTDebug के साथ LLM-आधारित यूनिट परीक्षण निर्माण और डिबगिंग प्रदर्शन में सुधार।

◦

कोड की शुद्धता का आकलन करने की LLM की क्षमता में सुधार करने में योगदान देना

◦

अत्याधुनिक एलएलएम के डिबगिंग प्रदर्शन को बेहतर बनाने में योगदान देना

•

Limitations:

◦

UTGen और UTDebug के प्रदर्शन में सुधार विशिष्ट LLM (Qwen2.5) और डेटासेट पर निर्भर हो सकता है। अन्य LLM और डेटासेट पर सामान्यीकरण प्रदर्शन निर्धारित करने के लिए और अधिक शोध की आवश्यकता है।

◦

जटिल कोड के लिए यूनिट परीक्षण बनाने और डिबगिंग प्रदर्शन का मूल्यांकन करने की आवश्यकता है।

◦

यूटीडीबग की ओवरफिटिंग रोकथाम रणनीति की प्रभावशीलता पर आगे विश्लेषण की आवश्यकता है।

◦

बड़े कोडबेस के लिए प्रयोज्यता और मापनीयता का मूल्यांकन करने की आवश्यकता है।

पीडीएफ देखें

Made with Slashpage