दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

संतुलन: एलएलएम के लिए प्राथमिकता रणनीतियाँ - डिज़ाइन्ड रेस्टलेस बैंडिट रिवॉर्ड्स

Created by
  • Haebom

लेखक

श्रेष्ठ वर्मा, निकलास बोहमर, लिंगकाई कोंग, मिलिंद तांबे

रूपरेखा

यह शोधपत्र बड़े पैमाने के भाषा मॉडल (एलएलएम) पर केंद्रित है, जिनका उपयोग सुदृढीकरण अधिगम (आरएल) में मानवीय प्राथमिकताओं पर आधारित पुरस्कार कार्यों को डिज़ाइन करने के लिए तेज़ी से किया जा रहा है। विशेष रूप से, हम रेस्टलेस मल्टी-आर्म्ड बैंडिट्स के लिए एलएलएम-डिज़ाइन किए गए पुरस्कारों पर ध्यान केंद्रित करते हैं, जो सीमित संसाधनों को कई एजेंटों को आवंटित करने का एक ढाँचा है। जन स्वास्थ्य जैसे अनुप्रयोगों में, यह दृष्टिकोण जमीनी स्तर के स्वास्थ्य कार्यकर्ताओं को अपने समुदायों की आवश्यकताओं के अनुसार स्वचालित आवंटन निर्णय लेने में सक्षम बनाता है। कई एजेंटों की उपस्थिति में, मानवीय प्राथमिकताओं के आधार पर पुरस्कार कार्यों में परिवर्तन उपसमूहों को बहुत अलग तरह से प्रभावित कर सकता है, जिससे जटिल ट्रेड-ऑफ़ और बहु-उद्देश्यीय संसाधन आवंटन समस्याएँ उत्पन्न हो सकती हैं। यह शोधपत्र पहली बार सामाजिक चयन भाषा मॉडल प्रस्तुत करता है, जो सामान्य रूप से बहु-एजेंट योजनाकारों और विशेष रूप से रेस्टलेस बैंडिट्स के लिए एलएलएम-डिज़ाइन किए गए पुरस्कारों में इन ट्रेड-ऑफ़ को संभालने की एक सैद्धांतिक विधि है। इस मॉडल का एक नया घटक निर्णायक है, जो एलएलएम से बाहर एक पारदर्शी और विन्यास योग्य विकल्प घटक है जो उपयोगकर्ता द्वारा चुने गए सामाजिक कल्याण फलन के माध्यम से जटिल ट्रेड-ऑफ़ को नियंत्रित करता है। प्रायोगिक परिणाम दर्शाते हैं कि यह मॉडल पूर्णतः LLM-आधारित दृष्टिकोणों की तुलना में संतुलित पुरस्कार कार्यों के चयन में अधिक प्रभावी, सुसंगत और मजबूत है।

____T9032_____, ____T9033_____

Takeaways:
एलएलएम-आधारित पुरस्कार फ़ंक्शन डिज़ाइन में बहु-एजेंट प्रणालियों की बहु-उद्देश्यीय संसाधन आवंटन समस्या को प्रभावी ढंग से हल करने के लिए एक नवीन विधि (सोशल चॉइस लैंग्वेज मॉडल) प्रस्तुत की गई है।
निर्णायक, उपयोगकर्ता की सामाजिक प्राथमिकताओं को स्पष्ट रूप से प्रतिबिंबित करके तथा LLM की सीमाओं को पूरा करके, अधिक प्रभावी और संतुलित पुरस्कार प्रकार्य चयन की अनुमति देता है।
संसाधन आवंटन प्रणाली स्थापित करने की संभावना प्रस्तुत करना जो सार्वजनिक स्वास्थ्य सहित विभिन्न क्षेत्रों में जमीनी स्तर के निवासियों की आवश्यकताओं को प्रतिबिंबित करती है।
Limitations:
सामाजिक चयन भाषा मॉडल का प्रदर्शन उपयोगकर्ता द्वारा चुने गए सामाजिक कल्याण फलन पर अत्यधिक निर्भर करता है। उपयुक्त फलन चयन निर्धारित करने के लिए और अधिक शोध की आवश्यकता है।
प्रयोग एक विशिष्ट बेचैन डाकुओं की समस्या तक सीमित थे। अन्य आरएल समस्याओं पर इसके सामान्यीकरण की पुष्टि की जानी आवश्यक है।
यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है कि क्या एलएलएम के पूर्वाग्रह को निर्णायकों के माध्यम से पूरी तरह से संबोधित किया जा सकता है।
👍