दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

विचार-विलय आसवन

ओटीईएसजीएन: पहलू-आधारित भावना विश्लेषण के लिए इष्टतम परिवहन-संवर्धित वाक्यात्मक-अर्थपूर्ण ग्राफ नेटवर्क

MESH -- मनुष्यों की तरह वीडियो को समझना: बड़े वीडियो मॉडल में मतिभ्रम को मापना

उच्च-ऊर्जा भौतिकी में न्यूट्रिनो घटना वर्गीकरण के लिए दृष्टि-भाषा मॉडल का अनुकूलन

समरूपता-निर्देशित बहु-एजेंट व्युत्क्रम सुदृढीकरण अधिगम

एयू-हार्नेस: ऑडियो एलएलएम के समग्र मूल्यांकन के लिए एक ओपन-सोर्स टूलकिट

चिकित्सा छवि निदान के लिए विशेषज्ञ-निर्देशित व्याख्यात्मक फ़्यू-शॉट शिक्षण

सामान्यीकृत रूटिंग की ओर: अनुकूली और कुशल अनुमान के लिए मॉडल और एजेंट ऑर्केस्ट्रेशन

मशीन लर्निंगएलएम: निरंतर पूर्व-प्रशिक्षण के माध्यम से कई-शॉट इन-कॉन्टेक्स्ट लर्निंग का स्केलिंग

डेमो: आणविक ट्यूमर बोर्डों में रोगी सारांशीकरण के लिए हेल्थकेयर एजेंट ऑर्केस्ट्रेटर (HAO)

विपरीत ध्यान द्वारा ध्यान केंद्रित करना: वीएलएम की दृश्य तर्क क्षमता को बढ़ाना

सेवा-पूर्व क्षितिज से परे: बेहतर वित्तीय जोखिम पूर्वानुमान के लिए सेवाकालीन व्यवहार को बढ़ावा देना

समयबद्ध नियमित अभिव्यक्तियों के संश्लेषण पर

टाइनीडेफ-डीईटीआर: यूएवी इमेजरी से ट्रांसमिशन लाइनों में दोष का पता लगाने के लिए डीईटीआर-आधारित फ्रेमवर्क

LiDAR-BIND-T: रोबोटिक अनुप्रयोगों के लिए बेहतर और अस्थायी रूप से सुसंगत सेंसर मोडैलिटी ट्रांसलेशन और फ्यूजन

विज़न से सत्यापन तक: जीसीसी-विशिष्ट एआई अपनाने के सूचकांक का एक सिद्धांत- और डेटा-संचालित निर्माण

विभेदक गोपनीयता के लिए एक व्यापक मार्गदर्शिका: सिद्धांत से उपयोगकर्ता अपेक्षाओं तक

एआई परिवर्तन की वास्तुकला: चार रणनीतिक पैटर्न और एक उभरता हुआ क्षेत्र

एफएलएम-ऑडियो: नेचुरल मोनोलॉग्स, दोहरे प्रशिक्षण के माध्यम से नेटिव फुल-डुप्लेक्स चैटबॉट्स को बेहतर बनाता है

ध्यान-संवर्धित ConvNeXt का उपयोग करके गहन शिक्षण-आधारित रॉक कणिकीय वर्गीकरण

जनरेटिव डिफ्यूजन की सूचना गतिशीलता

कंप्यूटर मॉडल की सिस्टम पहचान के लिए डेटा-संवर्धित फ्यू-शॉट न्यूरल स्टेंसिल इम्यूलेशन

विषम सुदृढीकरण सीखने के लिए समूह अपेक्षा नीति अनुकूलन

ऑडियो फ़िंगरप्रिंटिंग और पुनर्प्राप्ति के लिए पूर्व-प्रशिक्षित कन्फ़ॉर्मर्स

हस्तलिखित गणितीय अभिव्यक्ति पहचान के लिए स्केलेबल प्रशिक्षण की ओर

सीएसएमए को अनुकूलित करने के लिए ट्रांसफॉर्मर-आधारित इन-कॉन्टेक्स्ट लर्निंग को सैद्धांतिक रूप से समझना

क्लियर-कोडटेस्ट: कोड सुदृढीकरण सीखने के लिए स्केलेबल टेस्ट केस जनरेशन

HiD-VAE: पदानुक्रमित और विसंयोजित अर्थ आईडी के माध्यम से व्याख्या योग्य जनरेटिव अनुशंसा

मैजिकजीयूआई: स्केलेबल डेटा पाइपलाइन और सुदृढ़ीकरण फाइन-ट्यूनिंग के साथ एक आधारभूत मोबाइल जीयूआई एजेंट

विला-X: दृष्टि-भाषा-क्रिया मॉडल में अव्यक्त क्रिया मॉडलिंग को बढ़ाना

कक्षा में नया बच्चा: एआई कोडिंग सहायकों के बारे में छात्रों की धारणाओं का अन्वेषण

क्या बड़े भाषा मॉडल पेटेंट नियमों को समझने के साथ-साथ उन्हें लागू करके व्यावहारिक पेटेंट अटॉर्नी परीक्षा पास कर सकते हैं?

3D अल्ट्रासाउंड में संयुक्त तल स्थानीयकरण और विसंगति निदान के लिए अनिश्चितता-जागरूक प्रसार और सुदृढीकरण सीखना

मानव धारणा बनाम तंत्रिका मॉडल द्वारा अनिश्चितता का अनुमान

पाठक की जिज्ञासा की भविष्यवाणी के लिए विषय नेटवर्क की सतत समरूपता

कार्य महत्वपूर्ण: ज्ञान की आवश्यकताएं संदर्भ-स्मृति संघर्ष के प्रति एलएलएम प्रतिक्रियाओं को आकार देती हैं

डिस्क्रीट पार्टिकल सिस्टम डेटा जेनरेशन का उपयोग करके ऑपरेटर लर्निंग के साथ क्रैक पथ भविष्यवाणी

घ्राण संवेदकों और डेटासेट में मजबूती के लिए प्रसार ग्राफ तंत्रिका नेटवर्क

एमएम-प्रॉम्प्ट: निरंतर दृश्य प्रश्नोत्तर के लिए क्रॉस-मोडल प्रॉम्प्ट ट्यूनिंग

कानूनी मानदंडों के लिए एक ऑन्टोलॉजी-संचालित ग्राफ आरएजी: एक संरचनात्मक, लौकिक और नियतात्मक दृष्टिकोण

लाइव ऑप्टिकल हस्ताक्षरों के साथ भाषण वीडियो के मिथ्याकरण का मुकाबला (विस्तारित संस्करण)

वीडियो सारांशीकरण के लिए वीएलएम में प्रारंभिक निकास और बहु-चरणीय ज्ञान आसवन

सिंथेटिक सारणीबद्ध डेटा के मूल्यांकन में महत्वपूर्ण चुनौतियाँ और दिशानिर्देश: एक व्यवस्थित समीक्षा

परजीवी: प्रसार मॉडल के लिए एक स्टेग्नोग्राफ़ी-आधारित बैकडोर अटैक फ्रेमवर्क

उन्नत पुनर्प्राप्ति-संवर्धित पीढ़ी के लिए अनुकूली स्मृति-आधारित अनुकूलन की ओर

कुशल परीक्षण-समय तर्क के लिए एन्ट्रॉपी-गेटेड ब्रांचिंग

SWI: बड़े भाषा मॉडल में इरादे के साथ बोलना

जनरेटिव एडवर्सेरियल नेटवर्क का उपयोग करके बीजान्टिन-मजबूत संघीय शिक्षा

वेरीसेफ एजेंट: तर्क-आधारित क्रिया सत्यापन के माध्यम से मोबाइल GUI एजेंट की सुरक्षा

मन: बहु-एजेंट आंतरिक संवाद के साथ गहन मनोवैज्ञानिक उपचार की ओर

वी-हॉप: विसुओ-हैप्टिक 6डी ऑब्जेक्ट पोज़ ट्रैकिंग

अहं-केंद्रित दुनिया में एक संयुक्त पूर्वानुमानित एजेंट मॉडल

लेबल-मुक्त एकल-कोशिका आरएनए-सीक्वेंस डेटा के लिए ज्ञान-निर्देशित बायोमार्कर पहचान: एक सुदृढ़ीकरण अधिगम परिप्रेक्ष्य

MERaLiON-SpeechEncoder: सिंगापुर और उसके बाहर के लिए एक भाषण आधार मॉडल की ओर

RED: पुरस्कार पुनर्वितरण के माध्यम से समग्र प्रतिक्रिया से टोकन-स्तरीय पुरस्कार प्राप्त करना

IDEATOR: स्वयं का उपयोग करके बड़े विज़न-लैंग्वेज मॉडलों को जेलब्रेक करना और बेंचमार्क करना

डीपवोटिंग: कैनोनिकल एम्बेडिंग के साथ वोटिंग नियमों को सीखना और उन्हें बेहतर बनाना

विविधता के आश्रित कारकों के अंतर्गत वियोजन पर पुनर्विचार

समानांतर प्रतीकात्मक गणना के साथ भौतिक नियमों की खोज

भाषा का उपयोग करके छवियों में अर्थपूर्ण वृद्धि

बड़े भाषा मॉडल द्वारा एल्गोरिथम मिलीभगत

न्यूनतम गठबंधन तर्क

इन्वेंटरी नेटवर्क के लिए गहन सुदृढीकरण सीखना: विश्वसनीय नीति अनुकूलन की ओर

सार्वभौमिक प्रतिबंधों के साथ प्राथमिकता वाले डेटाबेस में असंगतता प्रबंधन: सक्रिय अखंडता प्रतिबंधों के साथ जटिलता विश्लेषण और लिंक

संपूर्ण प्रसार पथ को सूक्ष्म मानवीय वरीयता के साथ सीधे संरेखित करना

कॉगगाइड: जीरो-शॉट ओमनी-मोडल रीजनिंग के लिए मानव-सदृश मार्गदर्शन

TreeGPT: ध्यान तंत्र के बिना संरचित तर्क के लिए शुद्ध TreeFFN एनकोडर-डिकोडर आर्किटेक्चर

रोबिक्स: रोबोट इंटरैक्शन, तर्क और योजना के लिए एक एकीकृत मॉडल

KROMA: ज्ञान पुनर्प्राप्ति और बड़े भाषा मॉडल के साथ ऑन्टोलॉजी मिलान

एलएलएम योजना का स्केलिंग: पैरामीट्रिक समस्या निर्माण और कठोर मूल्यांकन के लिए एनएल2फ्लो

बड़े तर्क मॉडल में लंबाई संपीड़न का अनुकूलन

संवेदी-मोटर नियंत्रण के लिए एलएलएम: संदर्भगत और पुनरावृत्तीय अधिगम का संयोजन

प्रयास-सचेत निष्पक्षता: एल्गोरिदमिक निष्पक्षता मेट्रिक्स में प्रयास की एक दर्शन-सूचित, मानव-केंद्रित धारणा को शामिल करना

इच्छा-संचालित स्वायत्तता के साथ मानव-जैसी दैनिक गतिविधियों का अनुकरण

मॉड्यूलर प्रॉम्प्ट संरचना के माध्यम से अनुकूलित मल्टी-टास्क प्रॉम्प्ट ट्यूनिंग के साथ फ्यू-शॉट ट्रांसफर लर्निंग को बढ़ाना

बटरफ्लाईक्वांट: सीखने योग्य ऑर्थोगोनल बटरफ्लाई ट्रांसफॉर्म्स के माध्यम से अल्ट्रा-लो-बिट एलएलएम क्वांटाइजेशन

सीडीई: बड़े भाषा मॉडलों में कुशल सुदृढीकरण सीखने के लिए जिज्ञासा-संचालित अन्वेषण

SimpleVLA-RL: सुदृढीकरण सीखने के माध्यम से VLA प्रशिक्षण का विस्तार

मेडिकेड देखभाल प्रबंधन के लिए व्यवहार्यता-निर्देशित निष्पक्ष अनुकूली ऑफ़लाइन सुदृढीकरण शिक्षा

रेडियो विनियमों की विश्वसनीय व्याख्या के लिए पुनर्प्राप्ति-संवर्धित पीढ़ी

समूह प्रतितथ्यात्मकता के विकास के माध्यम से अवधारणा बहाव की व्याख्या

LoCoBench: जटिल सॉफ्टवेयर इंजीनियरिंग में दीर्घ-संदर्भ वृहद भाषा मॉडल के लिए एक बेंचमार्क

स्थानिक-कालिक मस्तिष्क ट्यूमर वृद्धि की भविष्यवाणी करने के लिए निर्देशित प्रसार मॉडल के साथ यांत्रिक शिक्षण

दोहरे-पास स्पेक्ट्रल एन्कोडिंग और लेटेंट स्पेस संचार के माध्यम से ग्राफ संरेखण

ऑब्जेक्ट रिएक्ट: विज़ुअल नेविगेशन के लिए ऑब्जेक्ट-रिलेटिव कंट्रोल सीखना

धाराप्रवाह लेकिन भावशून्य: भाषा मॉडल के भावनात्मक अंधे धब्बे

अदृश्य विशेषताएँ, दृश्यमान पूर्वाग्रह: एमआरआई-आधारित अल्ज़ाइमर रोग वर्गीकरण में जनसांख्यिकीय शॉर्टकट की खोज

वैश्विक अनुकूलन समस्याओं के लिए बहु-सहप्रसरण शिक्षण ऑपरेटरों के साथ एक उन्नत शैक्षिक प्रतिस्पर्धा अनुकूलक

स्व-पर्यवेक्षित विज़न एनकोडर से बहु-विशेषता संलयन और संरेखण द्वारा वीडियो प्रसार ट्रांसफार्मर प्रशिक्षण में सुधार

संख्यात्मक अनुकूलन के लिए सहप्रसरण अधिगम और विविधता संवर्द्धन के साथ एक संशोधित RIME एल्गोरिथम

व्याख्या योग्य नौकरी शीर्षक मिलान की ओर: अर्थपूर्ण पाठ्य संबद्धता और ज्ञान ग्राफ़ का लाभ उठाना

त्वरित सूक्ष्म संरचना इमेजिंग के लिए व्याख्यात्मक AI: कनेक्टोम 2.0 स्कैनर पर एक SHAP-निर्देशित प्रोटोकॉल

दूरसंचार कानून और नीति में एआई घटना रिपोर्टिंग को शामिल करना: भारत से अंतर्दृष्टि

ओपनफ़ेक: बड़े पैमाने पर डीपफ़ेक का पता लगाने के लिए एक खुला डेटासेट और प्लेटफ़ॉर्म

प्रॉम्प्ट पाइरेट्स को एक मानचित्र की आवश्यकता है: बीज चुराने से प्रॉम्प्ट चुराने में मदद मिलती है

उप-सहारा एमआरआई पर संसाधन-कुशल ग्लियोमा विभाजन

ENSI: बड़े भाषा मॉडल के लिए कुशल गैर-इंटरैक्टिव सुरक्षित अनुमान

हम अभी भी यह (पूरी तरह) गलत कर रहे हैं: पंद्रह साल बाद भी अनुशंसा प्रणालियाँ

एलएलएम को अपनी निर्णय सीमाएँ नहीं पता: स्व-निर्मित प्रतितथ्यात्मक स्पष्टीकरणों की अविश्वसनीयता

मेटाएलएलमिक्स: हाइपर-पैरामीटर अनुकूलन के लिए एक एक्सएआई सहायता प्राप्त एलएलएम-मेटा-लर्निंग आधारित दृष्टिकोण

विपरीत ध्यान द्वारा ध्यान केंद्रित करना: वीएलएम की दृश्य तर्क क्षमता को बढ़ाना

Created by

Haebom

लेखक

युयाओ गे, शेंगहुआ लियू, यिवेई वांग, लिंगरुई मेई, बाओलोंग बी, जुआनशान झोउ, जियायु याओ, जियाफेंग गुओ, ज़ुएकी चेंग

रूपरेखा

यह शोधपत्र दृष्टि-भाषा मॉडल (वीएलएम) के ध्यान पैटर्न का विश्लेषण करता है और जटिल दृश्य वातावरणों में वीएलएम के प्रदर्शन में गिरावट को दूर करने हेतु उन्हें बेहतर बनाने हेतु एक नवीन विधि प्रस्तावित करता है। हमारे शोध से ध्यान एन्ट्रॉपी और दृश्य जटिलता के बीच एक मजबूत संबंध का पता चलता है, जिसके परिणामस्वरूप अनुमान प्रदर्शन में गिरावट आती है। इसके अलावा, हम पाते हैं कि उथली परतों में वैश्विक स्कैनिंग से ध्यान धीरे-धीरे परिष्कृत होकर गहरी परतों में केंद्रित अभिसरण की ओर बढ़ता है, और अभिसरण की मात्रा दृश्य जटिलता द्वारा निर्धारित होती है। इस अंतर्दृष्टि के आधार पर, हम CARVE (दृश्य संवर्द्धन के लिए कंट्रास्टिव अटेंशन रिफाइनमेंट) प्रस्तावित करते हैं, जो एक प्रशिक्षण-मुक्त विधि है जो पिक्सेल-स्तरीय ध्यान कंट्रास्ट के माध्यम से कार्य-प्रासंगिक दृश्य संकेतों को निकालती है। प्रायोगिक परिणाम दर्शाते हैं कि CARVE ओपन-सोर्स मॉडल पर 75% तक प्रदर्शन सुधार प्राप्त करता है।

Takeaways, Limitations

•

Takeaways:

◦

हमने वीएलएम के ध्यान तंत्र का विश्लेषण करके दृश्य जटिलता और अनुमान प्रदर्शन के बीच संबंधों की जांच की।

◦

हम CARVE प्रस्तुत कर रहे हैं, जो बिना प्रशिक्षण के VLMs के प्रदर्शन को बेहतर बनाने की एक प्रभावी विधि है।

◦

हम एक नवीन दृष्टिकोण प्रस्तुत करते हैं जो ध्यान विरोधाभास का लाभ उठाकर दृश्य संकेतों को अर्थ संबंधी संकेतों और दृश्य शोर में विघटित कर देता है।

◦

इसने ओपन सोर्स मॉडल की तुलना में महत्वपूर्ण प्रदर्शन सुधार दिखाया।

•

Limitations:

◦

यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है कि क्या CARVE के प्रदर्शन में सुधार सभी VLMs और सभी प्रकार की दृश्य जटिलताओं में एक समान है।

◦

प्रस्तावित विधि कुछ प्रकार के वीएलएम या कुछ कार्यों के प्रति पक्षपाती हो सकती है।

◦

पिक्सेल-वार ध्यान कंट्रास्ट कम्प्यूटेशनल रूप से महंगा हो सकता है।

पीडीएफ देखें

Made with Slashpage