दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

जीटीपीओ: बड़े भाषा मॉडल में प्रक्षेप-पथ आधारित नीति अनुकूलन

Created by
  • Haebom

लेखक

मार्को सिमोनी, अलेक्जेंडर फोंटाना, गिउलिओ रोसोलिनी, एंड्रिया सारासिनो

रूपरेखा

यह पत्र मौजूदा समूह-सापेक्ष नीति अनुकूलन (जीआरपीओ) की दो प्रमुख समस्याओं का विश्लेषण करता है: (I) विरोधाभासी ग्रेडिएंट अपडेट जो तब होते हैं जब टोकन सकारात्मक और नकारात्मक दोनों पुरस्कार प्राप्त करते हैं, और (ii) समस्या यह है कि नकारात्मक रूप से पुरस्कृत अंतिम संस्करण आश्वस्त प्रतिक्रियाओं को दंडित करते हैं और मॉडल निर्णयों को कम संभावित टोकन की ओर स्थानांतरित करते हैं, आउटपुट वितरण को समतल करते हैं और सीखने में बाधा डालते हैं। इन मुद्दों को संबोधित करने के लिए, यह पत्र समूह-सापेक्ष प्रक्षेपवक्र-आधारित नीति अनुकूलन (जीटीपीओ) का प्रस्ताव करता है, जो विरोधाभासी टोकन की पहचान करता है और नकारात्मक को छोड़ते हुए सकारात्मक अपडेट को बढ़ाता है। इसके अलावा, यह एक निश्चित सीमा से अधिक एन्ट्रॉपी वाले अंतिम संस्करणों को फ़िल्टर करके नीति पतन को रोकता है। जीआरपीओ के विपरीत, जीटीपीओ केएल-विचलन नियमन पर निर्भर नहीं करता

Takeaways, Limitations

Takeaways:
हम जीआरपीओ के Limitations को स्पष्ट करते हैं और जीटीपीओ का प्रस्ताव करते हैं, जो एक नई नीति अनुकूलन विधि है जो इसे बेहतर बनाती है।
जीटीपीओ, केएल-डाइवर्जेन्स नियमन के बिना स्थिर शिक्षण और प्रदर्शन सुधार प्राप्त करता है।
GSM8K, MATH, और AIME 2024 बेंचमार्क पर GTPO की श्रेष्ठता का प्रयोगात्मक सत्यापन।
संदर्भ मॉडल के बिना सीखने को सक्षम करके दक्षता में वृद्धि।
Limitations:
जीटीपीओ की एन्ट्रॉपी थ्रेशोल्ड सेटिंग के आगे विश्लेषण और अनुकूलन की आवश्यकता है।
विभिन्न प्रकार के भाषा मॉडल और बेंचमार्क के साथ आगे प्रयोग की आवश्यकता है।
प्रस्तावित एन्ट्रॉपी सीमा के सैद्धांतिक आधार की अधिक विस्तृत व्याख्या की आवश्यकता है।
👍