यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह पत्र मिश्रित पुरस्कारों के साथ सुदृढीकरण सीखना (RLMR) प्रस्तावित करता है, जो रचनात्मक लेखन के लिए सुदृढीकरण सीखने पर आधारित एक नवीन विधि है जो व्यक्तिपरक लेखन गुणवत्ता (जैसे साहित्यिकता, भावनात्मक अभिव्यक्ति) को बड़े पैमाने के भाषा मॉडल का उपयोग करके वस्तुनिष्ठ बाधाओं (जैसे औपचारिक आवश्यकताएँ, शब्द गणना सीमाएँ) के पालन के साथ संतुलित करती है। RLMR एक गतिशील रूप से मिश्रित पुरस्कार प्रणाली का उपयोग करता है जिसमें एक लेखन पुरस्कार मॉडल होता है जो व्यक्तिपरक लेखन गुणवत्ता का आकलन करता है और एक बाधा सत्यापन मॉडल जो वस्तुनिष्ठ बाधाओं के पालन का आकलन करता है। विशेष रूप से, यह एक नमूना समूह की लेखन गुणवत्ता के आधार पर बाधा अनुपालन पुरस्कार भार को गतिशील रूप से समायोजित करता है, और प्रशिक्षण के दौरान बाधाओं का उल्लंघन करने वाले नमूनों को दंडित करता है। 8B से 72B तक के मापदंडों वाले विभिन्न मॉडल परिवारों के स्वचालित और मैन्युअल मूल्यांकन के साथ-साथ वास्तविक दुनिया के लेखन बेंचमार्क WriteEval का उपयोग करके प्रयोग किए जाते हैं,
____T32611_____, ____T32612_____
•
Takeaways:
◦
यह ऑनलाइन सुदृढीकरण शिक्षण प्रशिक्षण में व्यक्तिपरक प्राथमिकताओं और वस्तुनिष्ठ सत्यापन को संयोजित करने वाला पहला अध्ययन है।
◦
हम बहुआयामी रचनात्मक लेखन को अनुकूलित करने के लिए प्रभावी समाधान प्रदान करते हैं।
◦
कमांड अनुपालन और लेखन गुणवत्ता दोनों में बेहतर प्रदर्शन (IFEval 83.36% → 86.65%, WriteEval मैनुअल विशेषज्ञ जोड़ी मूल्यांकन 72.75% जीत दर)।
•
Limitations:
◦
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन का मूल्यांकन करने के लिए आगे अनुसंधान की आवश्यकता है।
◦
राइटइवल सहित मूल्यांकन मानदंडों के दायरे को और विस्तारित करने की आवश्यकता है।
◦
विभिन्न प्रकार के रचनात्मक लेखन कार्यों में इसकी प्रयोज्यता के और अधिक सत्यापन की आवश्यकता है।