[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

आलोचना-जीआरपीओ: प्राकृतिक भाषा और संख्यात्मक प्रतिक्रिया के साथ एलएलएम तर्क को आगे बढ़ाना

Created by
  • Haebom

लेखक

ज़ियाओयिंग झांग, हाओ सन, यिपेंग झांग, काइतुओ फेंग, चाओचाओ लू, चाओ यांग, हेलेन मेंग

रूपरेखा

यह पत्र केवल संख्यात्मक प्रतिक्रिया का उपयोग करके सुदृढीकरण सीखने (आरएल) की तीन Limitations (ठहराव, आत्म-चिंतन की सीमित प्रभावशीलता और लगातार विफलता) कमियों को प्रस्तुत करता है, और क्रिटिक-जीआरपीओ का प्रस्ताव करता है, जो एक उपन्यास आरएल फ्रेमवर्क है जो उन्हें दूर करने के लिए प्राकृतिक भाषा आलोचना को एकीकृत करता है। क्रिटिक-जीआरपीओ संख्यात्मक प्रतिक्रिया और प्राकृतिक भाषा आलोचना का एक साथ उपयोग करके नीति अनुकूलन करता है, और विशेष रूप से, यह एक आकार देने वाले फ़ंक्शन का उपयोग करता है जो सही उत्तरों के लिए इनाम को मजबूत करता है और गलत उत्तरों को दंडित करता है। Qwen2.5-7B-Base, Qwen2.5-Math-7B-Base, और Qwen3-8B मॉडल का उपयोग करके प्रयोगात्मक परिणाम दिखाते हैं कि क्रिटिक-जीआरपीओ आठ अलग-अलग अनुमान कार्यों पर पारंपरिक पर्यवेक्षित सीखने और आरएल-आधारित ठीक-ट्यूनिंग विधियों से बेहतर प्रदर्शन करता है

Takeaways, Limitations

Takeaways:
हम बड़े पैमाने के भाषा मॉडलों के लिए सुदृढीकरण सीखने की समस्या को हल करने के लिए प्राकृतिक भाषा आलोचना को एकीकृत करने की संभावना प्रस्तुत करते हैं, जो केवल संख्यात्मक प्रतिक्रिया द्वारा सीमित है।
क्रिटिक-जीआरपीओ मौजूदा आरएल विधियों की तुलना में बेहतर प्रदर्शन प्राप्त करता है। यह आत्म-आलोचना के माध्यम से प्रदर्शन में सुधार और सामान्यीकरण प्रदर्शन में सुधार लाने में विशेष रूप से प्रभावी है।
विभिन्न प्रकार की तर्क समस्याओं (गणित, STEM, सामान्य तर्क) पर बेहतर प्रदर्शन दर्शाता है।
Limitations:
आलोचना-जीआरपीओ को तीन Limitations (प्रदर्शन पठार, आत्म-प्रतिबिंब की सीमित प्रभावशीलता और लगातार विफलता) के समाधान के रूप में प्रस्तावित किया गया है, लेकिन अन्य प्रकार के Limitations पर विचार नहीं किया गया है।
क्रिटिक-जीआरपीओ की प्रभावशीलता कुछ मॉडलों और कार्यों तक सीमित हो सकती है। विभिन्न मॉडलों और कार्यों पर अतिरिक्त प्रयोगों की आवश्यकता है।
प्राकृतिक भाषा आलोचना की गुणवत्ता पर अत्यधिक निर्भरता हो सकती है। आलोचना की गुणवत्ता में गिरावट आने पर प्रदर्शन में गिरावट की संभावना होती है।
👍