[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

क्वेस्टए: प्रश्न संवर्धन के माध्यम से एलएलएम में तर्क क्षमता का विस्तार

Created by
  • Haebom

लेखक

जियाझेंग ली, हांग लू, काइयू वेन, ज़ैवेन यांग, जियाक्सुआन गाओ, हांगझू लिन, यी वू, जिंगझाओ झांग

रूपरेखा

इस पत्र में, हम सुदृढीकरण अधिगम (RL) का उपयोग करके बड़े पैमाने पर भाषा अनुमान मॉडल (LLM) की बहु-स्तरीय अनुमान क्षमता में सुधार करने में पारंपरिक RL की सीमाओं को इंगित करते हैं, और इन सीमाओं को हल करने के लिए एक उपन्यास विधि, प्रश्न वृद्धि (QuestA) का प्रस्ताव करते हैं। QuestA RL सीखने की प्रक्रिया के दौरान आंशिक समाधान जोड़कर समस्या की कठिनाई को कम करता है, जिससे अधिक जानकारीपूर्ण प्रशिक्षण संकेत मिलते हैं। जब गणितीय अनुमान कार्यों के लिए RL सीखने के दौरान QuestA लागू किया जाता है, तो Pass@1 और Pass@k प्रदर्शन में सुधार होता है, खासकर उन समस्याओं के लिए जहां पारंपरिक RL संघर्ष करता है। DeepScaleR और OpenMath Nemotron जैसे शक्तिशाली ओपन सोर्स मॉडल की अनुमान क्षमता में और सुधार करके, इसके अलावा, हम सैद्धांतिक स्पष्टीकरण देते हैं कि क्यों क्वेस्टए नमूना दक्षता में सुधार करता है, तथा आरएल के माध्यम से अनुमान क्षमता को बढ़ाने के लिए एक व्यावहारिक और सामान्यीकृत विधि का सुझाव देते हैं।

Takeaways, Limitations

Takeaways:
सुदृढीकरण सीखने-आधारित एलएलएम के बहु-स्तरीय अनुमान प्रदर्शन में सुधार के लिए एक प्रभावी प्रश्न वृद्धि (क्वेस्टए) रणनीति प्रस्तुत करना।
मौजूदा आरएल की सीमाओं पर काबू पाना और प्रदर्शन में सुधार करने में योगदान देना, विशेष रूप से कठिन समस्याओं के लिए।
AIME24, AIME25, और HMMT25 बेंचमार्क पर नए अत्याधुनिक प्रदर्शन प्राप्त करें।
उन्नत नमूना दक्षता के माध्यम से कुशल शिक्षण की संभावना प्रस्तुत करना।
आरएल-आधारित एलएलएम की अनुमान क्षमता का विस्तार करने के लिए एक व्यावहारिक और सामान्यीकृत विधि प्रदान करें।
Limitations:
प्रस्तावित विधि की सामान्यीकरण क्षमता निर्धारित करने के लिए अतिरिक्त प्रयोगों और विश्लेषणों की आवश्यकता है। (पाठ में सामान्यीकरण क्षमता का उल्लेख है, लेकिन कोई विशिष्ट सीमाएँ नहीं दी गई हैं।)
अन्य प्रकार की अनुमान समस्याओं के लिए प्रयोज्यता और प्रदर्शन मूल्यांकन की आवश्यकता है।
क्वेस्टए में पैरामीटर ट्यूनिंग और अनुकूलन के विस्तृत विश्लेषण का अभाव।
👍