दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

आरएलएमआर: रचनात्मक लेखन के लिए मिश्रित पुरस्कारों के साथ सुदृढीकरण सीखना

Created by
  • Haebom

लेखक

जियानक्सिंग लियाओ, तियान झांग, जिओ फेंग, युसोंग झांग, रुई यांग, हाओरुई वांग, बोसी वेन, ज़ियिंग वांग, रूंझी शि

रूपरेखा

यह पत्र मिश्रित पुरस्कारों के साथ सुदृढीकरण सीखना (RLMR) प्रस्तावित करता है, जो रचनात्मक लेखन के लिए सुदृढीकरण सीखने पर आधारित एक नवीन विधि है जो व्यक्तिपरक लेखन गुणवत्ता (जैसे साहित्यिकता, भावनात्मक अभिव्यक्ति) को बड़े पैमाने के भाषा मॉडल का उपयोग करके वस्तुनिष्ठ बाधाओं (जैसे औपचारिक आवश्यकताएँ, शब्द गणना सीमाएँ) के पालन के साथ संतुलित करती है। RLMR एक गतिशील रूप से मिश्रित पुरस्कार प्रणाली का उपयोग करता है जिसमें एक लेखन पुरस्कार मॉडल होता है जो व्यक्तिपरक लेखन गुणवत्ता का आकलन करता है और एक बाधा सत्यापन मॉडल जो वस्तुनिष्ठ बाधाओं के पालन का आकलन करता है। विशेष रूप से, यह एक नमूना समूह की लेखन गुणवत्ता के आधार पर बाधा अनुपालन पुरस्कार भार को गतिशील रूप से समायोजित करता है, और प्रशिक्षण के दौरान बाधाओं का उल्लंघन करने वाले नमूनों को दंडित करता है। 8B से 72B तक के मापदंडों वाले विभिन्न मॉडल परिवारों के स्वचालित और मैन्युअल मूल्यांकन के साथ-साथ वास्तविक दुनिया के लेखन बेंचमार्क WriteEval का उपयोग करके प्रयोग किए जाते हैं,

____T32611_____, ____T32612_____

Takeaways:
यह ऑनलाइन सुदृढीकरण शिक्षण प्रशिक्षण में व्यक्तिपरक प्राथमिकताओं और वस्तुनिष्ठ सत्यापन को संयोजित करने वाला पहला अध्ययन है।
हम बहुआयामी रचनात्मक लेखन को अनुकूलित करने के लिए प्रभावी समाधान प्रदान करते हैं।
कमांड अनुपालन और लेखन गुणवत्ता दोनों में बेहतर प्रदर्शन (IFEval 83.36% → 86.65%, WriteEval मैनुअल विशेषज्ञ जोड़ी मूल्यांकन 72.75% जीत दर)।
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन का मूल्यांकन करने के लिए आगे अनुसंधान की आवश्यकता है।
राइटइवल सहित मूल्यांकन मानदंडों के दायरे को और विस्तारित करने की आवश्यकता है।
विभिन्न प्रकार के रचनात्मक लेखन कार्यों में इसकी प्रयोज्यता के और अधिक सत्यापन की आवश्यकता है।
👍