[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

आलोचना-जीआरपीओ: प्राकृतिक भाषा और संख्यात्मक प्रतिक्रिया के साथ एलएलएम तर्क को आगे बढ़ाना

Created by
  • Haebom

लेखक

ज़ियाओयिंग झांग, हाओ सन, यिपेंग झांग, काइतुओ फेंग, चाओचाओ लू, चाओ यांग, हेलेन मेंग

रूपरेखा

यह पत्र केवल संख्यात्मक पुरस्कारों का उपयोग करके सुदृढीकरण सीखने (आरएल) की तीन प्रमुख Limitations (प्रदर्शन पठार, आत्म-प्रतिबिंब की सीमित प्रभावशीलता और लगातार विफलता) कमियों को प्रस्तुत करता है, और उन पर काबू पाने के लिए प्राकृतिक भाषा आलोचना को एकीकृत करने वाले उपन्यास सुदृढीकरण सीखने के ढांचे, क्रिटिक-जीआरपीओ का प्रस्ताव करता है। क्रिटिक-जीआरपीओ संख्यात्मक और प्राकृतिक भाषा प्रतिक्रिया दोनों का एक साथ लाभ उठाकर नीति अनुकूलन करता है, और विशेष रूप से, एक आकार देने वाले फ़ंक्शन का उपयोग करता है जो सही (विशेष रूप से अपरिचित) सुधारों के लिए सीखने को बढ़ाता है और गलत सुधारों को दंडित करता है। Qwen2.5 और Qwen3 मॉडल का उपयोग करने वाले प्रायोगिक परिणाम बताते हैं कि क्रिटिक-जीआरपीओ लगातार आठ विविध अनुमान कार्यों पर पारंपरिक पर्यवेक्षित सीखने और आरएल-आधारित ठीक-ट्यूनिंग विधियों से बेहतर प्रदर्शन करता है

____T9872_____, Limitations

Takeaways:
हम दिखाते हैं कि आरएल की समस्या, जिसमें केवल संख्यात्मक फीडबैक की सीमाएँ हैं, को प्राकृतिक भाषा आलोचना के माध्यम से प्रभावी ढंग से हल किया जा सकता है।
क्रिटिक-जीआरपीओ मौजूदा आरएल विधियों की तुलना में बेहतर प्रदर्शन प्राप्त करता है, जो एलएलएम की अनुमान क्षमता को बेहतर बनाने में योगदान देता है।
आत्म-आलोचना के माध्यम से आत्म-सुधार और सामान्यीकरण क्षमताओं में सुधार की संभावना का सुझाव देना।
Limitations:
ऐसी संभावना है कि प्रस्तावित विधि की प्रभावशीलता कुछ मॉडलों और कार्यों तक ही सीमित हो सकती है।
प्राकृतिक भाषा आलोचना की गुणवत्ता से प्रदर्शन बहुत प्रभावित हो सकता है।
बड़े पैमाने पर भाषा मॉडल की कम्प्यूटेशनल लागत और संसाधन खपत के मुद्दे।
विभिन्न प्रकार की प्राकृतिक भाषा प्रतिक्रिया के लिए सामान्यीकरण प्रदर्शन को सत्यापित करने की आवश्यकता है।
👍