दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

शेड्यूलिंग नीतियों, प्रोत्साहन संरचनाओं और बिजली एवं शीतलन पर उनके प्रभाव के मूल्यांकन के लिए एचपीसी डिजिटल ट्विन्स

एनएलकेआई: कॉमनसेंस वीक्यूए कार्यों में छोटे वीएलएम को बेहतर बनाने के लिए एक हल्का प्राकृतिक भाषा ज्ञान एकीकरण ढांचा

इंटरैक्ट-कस्टम: अनुकूलित मानव वस्तु इंटरैक्शन छवि निर्माण

बहु-व्यवहार अनुशंसा के लिए एक स्व-पर्यवेक्षित विशेषज्ञों का मिश्रण ढाँचा

MIDAS: वास्तविक समय ऑटोरिग्रैसिव वीडियो जेनरेशन के माध्यम से मल्टीमॉडल इंटरैक्टिव डिजिटल-ह्यूमन संश्लेषण

टेबुला रासा से उभरती क्षमताओं तक: वास्तविक दुनिया के अप्रशिक्षित गुणवत्ता-विविधता के माध्यम से रोबोट कौशल की खोज

ग्राफ़ न्यूरल नेटवर्क के लिए गतिशील त्रिभुजन-आधारित ग्राफ़ रीवायरिंग

STDiff: औद्योगिक प्रणालियों में समय श्रृंखला आरोपण के लिए एक राज्य संक्रमण प्रसार ढांचा

एलएलएम सहकर्मी दबाव को नहीं झेल सकते: बहु-एजेंट सामाजिक संपर्कों के कारण टूट रहे हैं

ग्राफ-आर1: स्पष्ट तर्क के माध्यम से एलएलएम में शून्य-शॉट ग्राफ सीखने की क्षमता को प्रोत्साहित करना

ध्वनिक और शारीरिक-संचालन माइक्रोफ़ोन फ्रेमवर्क के लिए मोडैलिटी-विशिष्ट वाक् संवर्द्धन और शोर-अनुकूली संलयन

मनुष्य एआई तर्क पाठों से गलत आख्यान ग्रहण करते हैं

SpecVLM: सत्यापनकर्ता-निर्देशित टोकन प्रूनिंग के माध्यम से वीडियो LLMs की सट्टा डिकोडिंग को बढ़ाना

गैर-सहकारी संघीय शिक्षण सेवाओं में संचार और संगणन सह-अनुकूलन के लिए पेरेटो अभिनेता-आलोचक

नैतिक रूप से वाहन चलाना सीखना: स्वचालित ड्राइविंग में नैतिक तर्क को शामिल करना

अवैध शिकार के विरुद्ध जनरेटिव एआई: वन्यजीव संरक्षण के लिए अव्यक्त समग्र प्रवाह मिलान

नकली पहचान दस्तावेजों की गोपनीयता-जागरूकता से पहचान: कार्यप्रणाली, बेंचमार्क और बेहतर एल्गोरिदम (FakeIDet2)

रोसेटा स्टोन से परे: सामान्यीकरण गतिकी में एकीकरण बल

निष्पक्षता की ओर बढ़ना: एलएलएम में राजनीतिक पूर्वाग्रह को कम करना

कुशल RAG के लिए गतिशील संदर्भ संपीड़न

अनावश्यक $K$-फ़ोल्ड क्रॉस-वैलिडेशन

मानव उत्पादकता बढ़ाने में त्वरित इंजीनियरिंग और बड़े भाषा मॉडल की प्रभावशीलता

राज्य जांच कार्य के लिए संघटक राज्यों के एनोटेशन के साथ एक अत्यधिक स्वच्छ रेसिपी डेटासेट

एन्ट्रॉपी-स्मरण नियम: एलएलएम में डेटा की स्मरण कठिनाई का मूल्यांकन

श्रेणीबद्ध अनुरूप भविष्यवाणी की खुशियाँ

आंतरिक अभ्यावेदन का उपयोग करके तर्क मॉडल का प्रतिकूल हेरफेर

एजेंट-से-एजेंट मन का सिद्धांत: बड़े भाषा मॉडलों के बीच वार्ताकार जागरूकता का परीक्षण

विद्युत प्रणालियों में झिलमिलाहट का अनुमान लगाने के लिए एक हाइब्रिड कृत्रिम बुद्धिमत्ता विधि (परिवर्तन चिह्नित हैं)

जीएलप्रोटीन: वैश्विक और स्थानीय संरचना जागरूक प्रोटीन प्रतिनिधित्व सीखना

बड़े भाषा मॉडल के साथ अर्थ असमानता खेल का कार्यक्रम

डीएसओ: भौतिक सुदृढ़ता के लिए सिमुलेशन फीडबैक के साथ 3डी जेनरेटरों का संरेखण

प्रशिक्षण-पश्चात मॉडल विस्तार के साथ क्वांटीकरण में सुधार

टोपोलॉजिकल विशेषताओं के आधार पर व्याख्या योग्य सुरक्षा क्षेत्रों के माध्यम से सुरक्षित और कुशल सामाजिक नेविगेशन

स्वायत्त रेसिंग के अनुप्रयोग के साथ बाधा-जागरूक अनुकरण सीखने का एक सरल दृष्टिकोण

गोपनीयता-संरक्षण चिकित्सा छवि विभाजन के लिए संघीय NnU-नेट

एक्सपाथ: ग्राफ़ लर्निंग और स्पष्टीकरण के माध्यम से जैविक ज्ञान आधारों के लिए लक्षित मार्ग अनुमान

बड़े भाषा मॉडल वाले जटिल प्रोग्रामों के लिए स्वचालित लूप इनवेरिएंट जनरेशन को बढ़ाना

रेवप्राग: एलएलएम सक्रियण विश्लेषण के माध्यम से पुनर्प्राप्ति-संवर्धित पीढ़ी में विषाक्तता के हमलों का खुलासा

मूल्य क्रम अनुमानित दूरी मीट्रिक लर्निंग के माध्यम से श्रेणीबद्ध डेटा क्लस्टरिंग

औपचारिक विधियों में एआई का अनुप्रयोग - वर्तमान रुझानों का विश्लेषण

लिंक भविष्यवाणी में GAE के प्रदर्शन पर पुनर्विचार

देखें फिर बताएं: विज़न ग्राउंडिंग के साथ महत्वपूर्ण जानकारी निष्कर्षण को बढ़ाना

इंडोनेशियाई भाषा में COVID-19 स्वचालित तथ्य-जांच के लिए ज्ञान ग्राफ़ के साथ प्राकृतिक भाषा अनुमान प्रदर्शन को बढ़ाना

पपेट-मास्टर: पार्ट-लेवल डायनेमिक्स के लिए मोशन प्रायर के रूप में इंटरैक्टिव वीडियो जेनरेशन को स्केल करना

एफएफएफफ्लो: प्रवाह परिवर्तन अनुमान के माध्यम से विविध और अनिश्चितता-जागरूक निपुण समझ निर्माण

SoAy: शैक्षणिक जानकारी प्राप्त करने के लिए समाधान-आधारित LLM API-उपयोग पद्धति

रैंक मॉडल के लिए काउंटरफैक्टुअल लर्निंग की मजबूती की जांच: एक पुनरुत्पादन अध्ययन

मजबूती-सटीकता के बीच संतुलन सुधारने के लिए प्रतिकूल प्रशिक्षण में अपरिवर्तनशीलता नियमन पर पुनर्विचार

मल्टी-एलएलएम के बीच नेटवर्क निर्माण और गतिशीलता

नेटजीपीटी: नेटवर्क ट्रैफ़िक के लिए जेनरेटिव प्रीट्रेन्ड ट्रांसफ़ॉर्मर

ओएलकेएवीएस: एक खुला बड़े पैमाने का कोरियाई ऑडियो-विजुअल भाषण डेटासेट

पाठ प्रसंस्करण और पुनर्प्राप्ति विधियों की व्याख्या: एक सर्वेक्षण

स्वचालित विचार निर्माण के लिए रेमन लुल्ल की चिंतन मशीन

आरएलएमआर: रचनात्मक लेखन के लिए मिश्रित पुरस्कारों के साथ सुदृढीकरण सीखना

औषधि परिसंपत्ति के समुचित परिश्रम में प्रतिस्पर्धी परिदृश्य मानचित्रण के लिए एलएलएम-आधारित एजेंट

एमएसएआरएल: मल्टी-स्मॉल-एजेंट रीइन्फोर्समेंट लर्निंग के साथ तर्क और उपकरण उपयोग को अलग करना

एलएलएम-सूचित विकासवादी मोंटे कार्लो ट्री सर्च द्वारा निर्देशित गुरुत्वाकर्षण-तरंग संसूचन के लिए स्वचालित एल्गोरिथम खोज

क्या बड़े भाषा मॉडल रणनीतिक तर्कशक्ति विकसित कर सकते हैं? शतरंज सीखने से प्रशिक्षण के बाद की अंतर्दृष्टि

अज्ञात क्षेत्र के रूप में प्रौद्योगिकी: प्रासंगिक अखंडता और नए नैतिक आधार के रूप में एआई की धारणा

संरेखित संरचना शिक्षण एजेंटों के लिए संभावित सिद्धांत

ऑप्टिमस-0.3: बड़े पैमाने पर अनुकूलन समस्याओं को मॉडल करने और हल करने के लिए बड़े भाषा मॉडल का उपयोग करना

प्रॉम्प्ट-टू-प्रोडक्ट: द्वि-हस्त हेरफेर के माध्यम से जनरेटिव असेंबली

ऑनगोल: बड़े भाषा मॉडल के साथ बहु-मोड़ संवाद में वार्तालाप लक्ष्यों को ट्रैक करना और विज़ुअलाइज़ करना

लंबे वीडियो निर्माण के लिए संदर्भों का मिश्रण

फेकपार्ट्स: एआई-जनरेटेड डीपफेक का एक नया परिवार

विश्वसनीय वित्तीय तर्क तक न्यायसंगत पहुँच को सक्षम बनाना

वेरिटास: पैटर्न-अवेयर रीजनिंग के माध्यम से सामान्यीकृत डीपफेक का पता लगाना

जनरेटिव एआई के साथ मानव संज्ञान को समझना, संरक्षित करना और बढ़ाना: सीएचआई 2025 टूल्स फॉर थॉट वर्कशॉप का एक संश्लेषण

सुदृढीकरण अधिगम मार्गदर्शन के साथ प्रसार मॉडल के लिए अनुमान-समय संरेखण नियंत्रण

चेन रिएक्शन! बेहतर और व्याख्या योग्य कारणात्मक वीडियो प्रश्नोत्तर के लिए मध्यवर्ती निरूपण के रूप में कारणात्मक श्रृंखलाओं के साथ संरचित दृष्टिकोण

डिफ्यूजन ट्री के माध्यम से एक बार प्रशिक्षण और कहीं भी योजना की गतिगतिकीय गति योजना

एक्सपर्टसिम: जनरेटिव विशेषज्ञों के मिश्रण का उपयोग करके तेज़ कण डिटेक्टर सिमुलेशन

WoW-बेंच: समुद्री स्तनपायी स्वरों के माध्यम से ऑडियो-भाषा मॉडल में सूक्ष्म ध्वनिक बोध का मूल्यांकन

प्रोएक्टिवइवल: प्रोएक्टिव डायलॉग एजेंटों के लिए एक एकीकृत मूल्यांकन ढांचा

एलएलएम प्रश्नों के लिए रिलेशनल डेटाबेस प्रबंधन प्रणालियों में अनुसंधान चुनौतियाँ

प्रशिक्षण के बाद क्विस्किट कोड सहायक के लिए क्वांटम सत्यापन योग्य पुरस्कार

अनुकूलित तर्क के साथ एआई एजेंटिक भेद्यता इंजेक्शन और परिवर्तन

जेडईएस: डीकम्पोज़िशनल स्कोरिंग के माध्यम से जेलब्रेक मूल्यांकन के लिए एक सार्वभौमिक ढांचा

आदिम सन्निहित विश्व मॉडल सीखना: स्केलेबल रोबोटिक लर्निंग की ओर

वेब के लिए मल्टी-एजेंट पेनेट्रेशन टेस्टिंग AI

अनिश्चितता जागरूकता-पूर्वानुमान नियंत्रण अवरोध कार्य: संभाव्य गति पूर्वानुमान के माध्यम से सुरक्षित मानव रोबोट संपर्क

मल्टीमॉडल डिप्रेशन का पता लगाने के लिए मशीन लर्निंग और भाषा मॉडल की खोज

एन्ट्रॉपी-अवेयर स्कोर चयन के माध्यम से वाक् भावना पहचान

इक्विवेरिएंट SE(3) सुविधाओं के साथ सर्फ़ेल-आधारित 3D पंजीकरण

वीएलएम और प्रसार मॉडल में संरचनागत सामान्यीकरण का मूल्यांकन

वैश्विक वर्ग सक्रियण संभाव्यता मानचित्र मूल्यांकन और SafeML के साथ सुरक्षित त्वचा घाव वर्गीकरण

अनिश्चितता को दूर करना: जनरेटिव एआई के लिए कुशल मशीन अनलर्निंग

संघर्ष के संकेत: भाषा और रजिस्टर में संज्ञानात्मक विकृतियों का पता लगाना

जादू को पलटना: रैंक-वन सुरक्षा इंजेक्शन के माध्यम से हल्के संरेखण प्रवर्धन

स्पष्ट से परे देखना: वीडियो समझ के लिए अमूर्त अवधारणा पहचान पर एक सर्वेक्षण

SKGE-SWIN: स्किप स्टेज स्विन ट्रांसफॉर्मर का उपयोग करके एंड-टू-एंड स्वायत्त वाहन वेपॉइंट भविष्यवाणी और नेविगेशन

सैन्य वाहन वर्गीकरण के लिए CLIP की अवरोधन मजबूती

SeqVLM: शून्य-शॉट 3D विज़ुअल ग्राउंडिंग के लिए VLM के माध्यम से प्रस्ताव-निर्देशित बहु-दृश्य अनुक्रम तर्क

बड़े भाषा मॉडल के लिए इन-टूल लर्निंग के प्रमाणित लाभ

${C}^{3}$-GS: सामान्यीकृत गॉसियन स्प्लैटिंग के लिए संदर्भ-जागरूक, क्रॉस-आयाम, क्रॉस-स्केल फ़ीचर सीखना

एलएलएम अनुप्रयोगों के लिए परीक्षण पर पुनर्विचार: विशेषताएँ, चुनौतियाँ और एक हल्का इंटरैक्शन प्रोटोकॉल

ईईजीडीएम: लेटेंट डिफ्यूजन मॉडल के साथ ईईजी प्रतिनिधित्व सीखना

ASR नामित इकाई सुधार के लिए जनरेटिव एनोटेशन

मोबाइलक्लिप2: बहु-मॉडल प्रबलित प्रशिक्षण में सुधार

कम्प्यूटेशनल इंटेलिजेंस और डीप रीइन्फोर्समेंट लर्निंग का उपयोग करके स्वायत्त मशीनों के लिए कार्य आवंटन

जादू को पलटना: रैंक-वन सुरक्षा इंजेक्शन के माध्यम से हल्के संरेखण प्रवर्धन

Created by

Haebom

लेखक

हरेथा अबू शायरा, हसन अबेद अल कादर हम्मूद, जॉर्ज तुर्कियाह, बर्नार्ड घनम

रूपरेखा

यह शोधपत्र रैंक-वन सेफ्टी इंजेक्शन (ROSI) का प्रस्ताव करता है, जो बड़े पैमाने के भाषा मॉडल (LLM) की सुरक्षा में सुधार के लिए एक नवीन विधि है। ROSI एक सरल, रैंक-वन वेट संशोधन विधि है जो बिना फ़ाइन-ट्यूनिंग की आवश्यकता के, मॉडल सक्रियणों को अस्वीकृति पैरामीटर उप-स्थान में स्थायी रूप से निर्देशित करती है। यह हानिकारक और हानिरहित निर्देशों के युग्मों के एक छोटे समूह से आवश्यक सुरक्षा निर्देशों की गणना करता है और उन्हें सभी अवशिष्ट स्ट्रीम राइट मैट्रिसेस पर लागू करता है। लामा गार्ड 3 पर मूल्यांकन दर्शाता है कि ROSI मॉडल की उपयोगिता को बनाए रखते हुए सुरक्षा अस्वीकृति दर में लगातार सुधार करता है। इसके अलावा, हम प्रदर्शित करते हैं कि यह "बिना सेंसर" मॉडल में संभावित सुरक्षा निर्देशों को बढ़ा और पुनर्व्यवस्थित कर सकता है, जो एक प्रभावी अंतिम-चरण सुरक्षा प्रक्रिया के रूप में इसकी उपयोगिता को प्रदर्शित करता है। परिणामस्वरूप, लक्ष्य-निर्देशित और व्याख्या योग्य वेट स्टीयरिंग LLM सुरक्षा में सुधार के लिए एक सस्ता और शक्तिशाली तंत्र है, जो अधिक संसाधन-गहन फ़ाइन-ट्यूनिंग प्रतिमानों का पूरक है।

Takeaways, Limitations

•

Takeaways:

◦

एलएलएम सुरक्षा में सुधार के लिए एक सस्ती और प्रभावी विधि के रूप में आरओएसआई की प्रस्तुति।

◦

सुरक्षा अस्वीकृति दर में वृद्धि करना तथा बिना किसी सुधार के मॉडल की प्रयोज्यता को बनाए रखना।

◦

बिना सेंसर किए गए मॉडलों की सुरक्षा पुनर्व्यवस्था की संभावना का सुझाव देना।

◦

लक्ष्य-उन्मुख और व्याख्या योग्य भार संचालन की उपयोगिता साबित करना।

◦

यह सुझाव दिया गया है कि इसका उपयोग मौजूदा फाइन-ट्यूनिंग-आधारित विधियों के पूरक प्रौद्योगिकी के रूप में किया जा सकता है।

•

Limitations:

◦

आरओएसआई की दीर्घकालिक सुरक्षा और सामान्यीकरण को निर्धारित करने के लिए आगे के अध्ययन की आवश्यकता है।

◦

विभिन्न एलएलएम आर्किटेक्चर और सुरक्षा तंत्रों पर आरओएसआई की प्रयोज्यता को सत्यापित करने की आवश्यकता है।

◦

सुरक्षा दिशा गणनाओं में प्रयुक्त खतरनाक/गैर-खतरनाक निर्देशक युग्मों के चयन मानदंड और गुणवत्ता पर आगे अनुसंधान की आवश्यकता है।

◦

वास्तविक दुनिया के दुर्भावनापूर्ण हमलों के विरुद्ध ROSI की मजबूती का मूल्यांकन करने की आवश्यकता है।

पीडीएफ देखें

Made with Slashpage