दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

शेड्यूलिंग नीतियों, प्रोत्साहन संरचनाओं और बिजली एवं शीतलन पर उनके प्रभाव के मूल्यांकन के लिए एचपीसी डिजिटल ट्विन्स

एनएलकेआई: कॉमनसेंस वीक्यूए कार्यों में छोटे वीएलएम को बेहतर बनाने के लिए एक हल्का प्राकृतिक भाषा ज्ञान एकीकरण ढांचा

इंटरैक्ट-कस्टम: अनुकूलित मानव वस्तु इंटरैक्शन छवि निर्माण

बहु-व्यवहार अनुशंसा के लिए एक स्व-पर्यवेक्षित विशेषज्ञों का मिश्रण ढाँचा

MIDAS: वास्तविक समय ऑटोरिग्रैसिव वीडियो जेनरेशन के माध्यम से मल्टीमॉडल इंटरैक्टिव डिजिटल-ह्यूमन संश्लेषण

टेबुला रासा से उभरती क्षमताओं तक: वास्तविक दुनिया के अप्रशिक्षित गुणवत्ता-विविधता के माध्यम से रोबोट कौशल की खोज

ग्राफ़ न्यूरल नेटवर्क के लिए गतिशील त्रिभुजन-आधारित ग्राफ़ रीवायरिंग

STDiff: औद्योगिक प्रणालियों में समय श्रृंखला आरोपण के लिए एक राज्य संक्रमण प्रसार ढांचा

एलएलएम सहकर्मी दबाव को नहीं झेल सकते: बहु-एजेंट सामाजिक संपर्कों के कारण टूट रहे हैं

ग्राफ-आर1: स्पष्ट तर्क के माध्यम से एलएलएम में शून्य-शॉट ग्राफ सीखने की क्षमता को प्रोत्साहित करना

ध्वनिक और शारीरिक-संचालन माइक्रोफ़ोन फ्रेमवर्क के लिए मोडैलिटी-विशिष्ट वाक् संवर्द्धन और शोर-अनुकूली संलयन

मनुष्य एआई तर्क पाठों से गलत आख्यान ग्रहण करते हैं

SpecVLM: सत्यापनकर्ता-निर्देशित टोकन प्रूनिंग के माध्यम से वीडियो LLMs की सट्टा डिकोडिंग को बढ़ाना

गैर-सहकारी संघीय शिक्षण सेवाओं में संचार और संगणन सह-अनुकूलन के लिए पेरेटो अभिनेता-आलोचक

नैतिक रूप से वाहन चलाना सीखना: स्वचालित ड्राइविंग में नैतिक तर्क को शामिल करना

अवैध शिकार के विरुद्ध जनरेटिव एआई: वन्यजीव संरक्षण के लिए अव्यक्त समग्र प्रवाह मिलान

नकली पहचान दस्तावेजों की गोपनीयता-जागरूकता से पहचान: कार्यप्रणाली, बेंचमार्क और बेहतर एल्गोरिदम (FakeIDet2)

रोसेटा स्टोन से परे: सामान्यीकरण गतिकी में एकीकरण बल

निष्पक्षता की ओर बढ़ना: एलएलएम में राजनीतिक पूर्वाग्रह को कम करना

कुशल RAG के लिए गतिशील संदर्भ संपीड़न

अनावश्यक $K$-फ़ोल्ड क्रॉस-वैलिडेशन

मानव उत्पादकता बढ़ाने में त्वरित इंजीनियरिंग और बड़े भाषा मॉडल की प्रभावशीलता

राज्य जांच कार्य के लिए संघटक राज्यों के एनोटेशन के साथ एक अत्यधिक स्वच्छ रेसिपी डेटासेट

एन्ट्रॉपी-स्मरण नियम: एलएलएम में डेटा की स्मरण कठिनाई का मूल्यांकन

श्रेणीबद्ध अनुरूप भविष्यवाणी की खुशियाँ

आंतरिक अभ्यावेदन का उपयोग करके तर्क मॉडल का प्रतिकूल हेरफेर

एजेंट-से-एजेंट मन का सिद्धांत: बड़े भाषा मॉडलों के बीच वार्ताकार जागरूकता का परीक्षण

विद्युत प्रणालियों में झिलमिलाहट का अनुमान लगाने के लिए एक हाइब्रिड कृत्रिम बुद्धिमत्ता विधि (परिवर्तन चिह्नित हैं)

जीएलप्रोटीन: वैश्विक और स्थानीय संरचना जागरूक प्रोटीन प्रतिनिधित्व सीखना

बड़े भाषा मॉडल के साथ अर्थ असमानता खेल का कार्यक्रम

डीएसओ: भौतिक सुदृढ़ता के लिए सिमुलेशन फीडबैक के साथ 3डी जेनरेटरों का संरेखण

प्रशिक्षण-पश्चात मॉडल विस्तार के साथ क्वांटीकरण में सुधार

टोपोलॉजिकल विशेषताओं के आधार पर व्याख्या योग्य सुरक्षा क्षेत्रों के माध्यम से सुरक्षित और कुशल सामाजिक नेविगेशन

स्वायत्त रेसिंग के अनुप्रयोग के साथ बाधा-जागरूक अनुकरण सीखने का एक सरल दृष्टिकोण

गोपनीयता-संरक्षण चिकित्सा छवि विभाजन के लिए संघीय NnU-नेट

एक्सपाथ: ग्राफ़ लर्निंग और स्पष्टीकरण के माध्यम से जैविक ज्ञान आधारों के लिए लक्षित मार्ग अनुमान

बड़े भाषा मॉडल वाले जटिल प्रोग्रामों के लिए स्वचालित लूप इनवेरिएंट जनरेशन को बढ़ाना

रेवप्राग: एलएलएम सक्रियण विश्लेषण के माध्यम से पुनर्प्राप्ति-संवर्धित पीढ़ी में विषाक्तता के हमलों का खुलासा

मूल्य क्रम अनुमानित दूरी मीट्रिक लर्निंग के माध्यम से श्रेणीबद्ध डेटा क्लस्टरिंग

औपचारिक विधियों में एआई का अनुप्रयोग - वर्तमान रुझानों का विश्लेषण

लिंक भविष्यवाणी में GAE के प्रदर्शन पर पुनर्विचार

देखें फिर बताएं: विज़न ग्राउंडिंग के साथ महत्वपूर्ण जानकारी निष्कर्षण को बढ़ाना

इंडोनेशियाई भाषा में COVID-19 स्वचालित तथ्य-जांच के लिए ज्ञान ग्राफ़ के साथ प्राकृतिक भाषा अनुमान प्रदर्शन को बढ़ाना

पपेट-मास्टर: पार्ट-लेवल डायनेमिक्स के लिए मोशन प्रायर के रूप में इंटरैक्टिव वीडियो जेनरेशन को स्केल करना

एफएफएफफ्लो: प्रवाह परिवर्तन अनुमान के माध्यम से विविध और अनिश्चितता-जागरूक निपुण समझ निर्माण

SoAy: शैक्षणिक जानकारी प्राप्त करने के लिए समाधान-आधारित LLM API-उपयोग पद्धति

रैंक मॉडल के लिए काउंटरफैक्टुअल लर्निंग की मजबूती की जांच: एक पुनरुत्पादन अध्ययन

मजबूती-सटीकता के बीच संतुलन सुधारने के लिए प्रतिकूल प्रशिक्षण में अपरिवर्तनशीलता नियमन पर पुनर्विचार

मल्टी-एलएलएम के बीच नेटवर्क निर्माण और गतिशीलता

नेटजीपीटी: नेटवर्क ट्रैफ़िक के लिए जेनरेटिव प्रीट्रेन्ड ट्रांसफ़ॉर्मर

ओएलकेएवीएस: एक खुला बड़े पैमाने का कोरियाई ऑडियो-विजुअल भाषण डेटासेट

पाठ प्रसंस्करण और पुनर्प्राप्ति विधियों की व्याख्या: एक सर्वेक्षण

स्वचालित विचार निर्माण के लिए रेमन लुल्ल की चिंतन मशीन

आरएलएमआर: रचनात्मक लेखन के लिए मिश्रित पुरस्कारों के साथ सुदृढीकरण सीखना

औषधि परिसंपत्ति के समुचित परिश्रम में प्रतिस्पर्धी परिदृश्य मानचित्रण के लिए एलएलएम-आधारित एजेंट

एमएसएआरएल: मल्टी-स्मॉल-एजेंट रीइन्फोर्समेंट लर्निंग के साथ तर्क और उपकरण उपयोग को अलग करना

एलएलएम-सूचित विकासवादी मोंटे कार्लो ट्री सर्च द्वारा निर्देशित गुरुत्वाकर्षण-तरंग संसूचन के लिए स्वचालित एल्गोरिथम खोज

क्या बड़े भाषा मॉडल रणनीतिक तर्कशक्ति विकसित कर सकते हैं? शतरंज सीखने से प्रशिक्षण के बाद की अंतर्दृष्टि

अज्ञात क्षेत्र के रूप में प्रौद्योगिकी: प्रासंगिक अखंडता और नए नैतिक आधार के रूप में एआई की धारणा

संरेखित संरचना शिक्षण एजेंटों के लिए संभावित सिद्धांत

ऑप्टिमस-0.3: बड़े पैमाने पर अनुकूलन समस्याओं को मॉडल करने और हल करने के लिए बड़े भाषा मॉडल का उपयोग करना

प्रॉम्प्ट-टू-प्रोडक्ट: द्वि-हस्त हेरफेर के माध्यम से जनरेटिव असेंबली

ऑनगोल: बड़े भाषा मॉडल के साथ बहु-मोड़ संवाद में वार्तालाप लक्ष्यों को ट्रैक करना और विज़ुअलाइज़ करना

लंबे वीडियो निर्माण के लिए संदर्भों का मिश्रण

फेकपार्ट्स: एआई-जनरेटेड डीपफेक का एक नया परिवार

विश्वसनीय वित्तीय तर्क तक न्यायसंगत पहुँच को सक्षम बनाना

वेरिटास: पैटर्न-अवेयर रीजनिंग के माध्यम से सामान्यीकृत डीपफेक का पता लगाना

जनरेटिव एआई के साथ मानव संज्ञान को समझना, संरक्षित करना और बढ़ाना: सीएचआई 2025 टूल्स फॉर थॉट वर्कशॉप का एक संश्लेषण

सुदृढीकरण अधिगम मार्गदर्शन के साथ प्रसार मॉडल के लिए अनुमान-समय संरेखण नियंत्रण

चेन रिएक्शन! बेहतर और व्याख्या योग्य कारणात्मक वीडियो प्रश्नोत्तर के लिए मध्यवर्ती निरूपण के रूप में कारणात्मक श्रृंखलाओं के साथ संरचित दृष्टिकोण

डिफ्यूजन ट्री के माध्यम से एक बार प्रशिक्षण और कहीं भी योजना की गतिगतिकीय गति योजना

एक्सपर्टसिम: जनरेटिव विशेषज्ञों के मिश्रण का उपयोग करके तेज़ कण डिटेक्टर सिमुलेशन

WoW-बेंच: समुद्री स्तनपायी स्वरों के माध्यम से ऑडियो-भाषा मॉडल में सूक्ष्म ध्वनिक बोध का मूल्यांकन

प्रोएक्टिवइवल: प्रोएक्टिव डायलॉग एजेंटों के लिए एक एकीकृत मूल्यांकन ढांचा

एलएलएम प्रश्नों के लिए रिलेशनल डेटाबेस प्रबंधन प्रणालियों में अनुसंधान चुनौतियाँ

प्रशिक्षण के बाद क्विस्किट कोड सहायक के लिए क्वांटम सत्यापन योग्य पुरस्कार

अनुकूलित तर्क के साथ एआई एजेंटिक भेद्यता इंजेक्शन और परिवर्तन

जेडईएस: डीकम्पोज़िशनल स्कोरिंग के माध्यम से जेलब्रेक मूल्यांकन के लिए एक सार्वभौमिक ढांचा

आदिम सन्निहित विश्व मॉडल सीखना: स्केलेबल रोबोटिक लर्निंग की ओर

वेब के लिए मल्टी-एजेंट पेनेट्रेशन टेस्टिंग AI

अनिश्चितता जागरूकता-पूर्वानुमान नियंत्रण अवरोध कार्य: संभाव्य गति पूर्वानुमान के माध्यम से सुरक्षित मानव रोबोट संपर्क

मल्टीमॉडल डिप्रेशन का पता लगाने के लिए मशीन लर्निंग और भाषा मॉडल की खोज

एन्ट्रॉपी-अवेयर स्कोर चयन के माध्यम से वाक् भावना पहचान

इक्विवेरिएंट SE(3) सुविधाओं के साथ सर्फ़ेल-आधारित 3D पंजीकरण

वीएलएम और प्रसार मॉडल में संरचनागत सामान्यीकरण का मूल्यांकन

वैश्विक वर्ग सक्रियण संभाव्यता मानचित्र मूल्यांकन और SafeML के साथ सुरक्षित त्वचा घाव वर्गीकरण

अनिश्चितता को दूर करना: जनरेटिव एआई के लिए कुशल मशीन अनलर्निंग

संघर्ष के संकेत: भाषा और रजिस्टर में संज्ञानात्मक विकृतियों का पता लगाना

जादू को पलटना: रैंक-वन सुरक्षा इंजेक्शन के माध्यम से हल्के संरेखण प्रवर्धन

स्पष्ट से परे देखना: वीडियो समझ के लिए अमूर्त अवधारणा पहचान पर एक सर्वेक्षण

SKGE-SWIN: स्किप स्टेज स्विन ट्रांसफॉर्मर का उपयोग करके एंड-टू-एंड स्वायत्त वाहन वेपॉइंट भविष्यवाणी और नेविगेशन

सैन्य वाहन वर्गीकरण के लिए CLIP की अवरोधन मजबूती

SeqVLM: शून्य-शॉट 3D विज़ुअल ग्राउंडिंग के लिए VLM के माध्यम से प्रस्ताव-निर्देशित बहु-दृश्य अनुक्रम तर्क

बड़े भाषा मॉडल के लिए इन-टूल लर्निंग के प्रमाणित लाभ

${C}^{3}$-GS: सामान्यीकृत गॉसियन स्प्लैटिंग के लिए संदर्भ-जागरूक, क्रॉस-आयाम, क्रॉस-स्केल फ़ीचर सीखना

एलएलएम अनुप्रयोगों के लिए परीक्षण पर पुनर्विचार: विशेषताएँ, चुनौतियाँ और एक हल्का इंटरैक्शन प्रोटोकॉल

ईईजीडीएम: लेटेंट डिफ्यूजन मॉडल के साथ ईईजी प्रतिनिधित्व सीखना

ASR नामित इकाई सुधार के लिए जनरेटिव एनोटेशन

मोबाइलक्लिप2: बहु-मॉडल प्रबलित प्रशिक्षण में सुधार

कम्प्यूटेशनल इंटेलिजेंस और डीप रीइन्फोर्समेंट लर्निंग का उपयोग करके स्वायत्त मशीनों के लिए कार्य आवंटन

आरएलएमआर: रचनात्मक लेखन के लिए मिश्रित पुरस्कारों के साथ सुदृढीकरण सीखना

Created by

Haebom

लेखक

जियानक्सिंग लियाओ, तियान झांग, जिओ फेंग, युसोंग झांग, रुई यांग, हाओरुई वांग, बोसी वेन, ज़ियिंग वांग, रूंझी शि

रूपरेखा

यह पत्र मिश्रित पुरस्कारों के साथ सुदृढीकरण सीखना (RLMR) प्रस्तावित करता है, जो रचनात्मक लेखन के लिए सुदृढीकरण सीखने पर आधारित एक नवीन विधि है जो व्यक्तिपरक लेखन गुणवत्ता (जैसे साहित्यिकता, भावनात्मक अभिव्यक्ति) को बड़े पैमाने के भाषा मॉडल का उपयोग करके वस्तुनिष्ठ बाधाओं (जैसे औपचारिक आवश्यकताएँ, शब्द गणना सीमाएँ) के पालन के साथ संतुलित करती है। RLMR एक गतिशील रूप से मिश्रित पुरस्कार प्रणाली का उपयोग करता है जिसमें एक लेखन पुरस्कार मॉडल होता है जो व्यक्तिपरक लेखन गुणवत्ता का आकलन करता है और एक बाधा सत्यापन मॉडल जो वस्तुनिष्ठ बाधाओं के पालन का आकलन करता है। विशेष रूप से, यह एक नमूना समूह की लेखन गुणवत्ता के आधार पर बाधा अनुपालन पुरस्कार भार को गतिशील रूप से समायोजित करता है, और प्रशिक्षण के दौरान बाधाओं का उल्लंघन करने वाले नमूनों को दंडित करता है। 8B से 72B तक के मापदंडों वाले विभिन्न मॉडल परिवारों के स्वचालित और मैन्युअल मूल्यांकन के साथ-साथ वास्तविक दुनिया के लेखन बेंचमार्क WriteEval का उपयोग करके प्रयोग किए जाते हैं,

__T32611_, T32612___

•

Takeaways:

◦

यह ऑनलाइन सुदृढीकरण शिक्षण प्रशिक्षण में व्यक्तिपरक प्राथमिकताओं और वस्तुनिष्ठ सत्यापन को संयोजित करने वाला पहला अध्ययन है।

◦

हम बहुआयामी रचनात्मक लेखन को अनुकूलित करने के लिए प्रभावी समाधान प्रदान करते हैं।

◦

कमांड अनुपालन और लेखन गुणवत्ता दोनों में बेहतर प्रदर्शन (IFEval 83.36% → 86.65%, WriteEval मैनुअल विशेषज्ञ जोड़ी मूल्यांकन 72.75% जीत दर)।

•

Limitations:

◦

प्रस्तावित विधि के सामान्यीकरण प्रदर्शन का मूल्यांकन करने के लिए आगे अनुसंधान की आवश्यकता है।

◦

राइटइवल सहित मूल्यांकन मानदंडों के दायरे को और विस्तारित करने की आवश्यकता है।

◦

विभिन्न प्रकार के रचनात्मक लेखन कार्यों में इसकी प्रयोज्यता के और अधिक सत्यापन की आवश्यकता है।

पीडीएफ देखें

Made with Slashpage

दैनिक अर्क्सिव

आरएलएमआर: रचनात्मक लेखन के लिए मिश्रित पुरस्कारों के साथ सुदृढीकरण सीखना

लेखक

रूपरेखा

____T32611_____, ____T32612_____

__T32611_, T32612___