इस पत्र में, हम सुदृढीकरण अधिगम (RL) का उपयोग करके बड़े पैमाने पर भाषा अनुमान मॉडल (LLM) की बहु-स्तरीय अनुमान क्षमता में सुधार करने में पारंपरिक RL की सीमाओं को इंगित करते हैं, और इन सीमाओं को हल करने के लिए एक उपन्यास विधि, प्रश्न वृद्धि (QuestA) का प्रस्ताव करते हैं। QuestA RL सीखने की प्रक्रिया के दौरान आंशिक समाधान जोड़कर समस्या की कठिनाई को कम करता है, जिससे अधिक जानकारीपूर्ण प्रशिक्षण संकेत मिलते हैं। जब गणितीय अनुमान कार्यों के लिए RL सीखने के दौरान QuestA लागू किया जाता है, तो Pass@1 और Pass@k प्रदर्शन में सुधार होता है, खासकर उन समस्याओं के लिए जहां पारंपरिक RL संघर्ष करता है। DeepScaleR और OpenMath Nemotron जैसे शक्तिशाली ओपन सोर्स मॉडल की अनुमान क्षमता में और सुधार करके, इसके अलावा, हम सैद्धांतिक स्पष्टीकरण देते हैं कि क्यों क्वेस्टए नमूना दक्षता में सुधार करता है, तथा आरएल के माध्यम से अनुमान क्षमता को बढ़ाने के लिए एक व्यावहारिक और सामान्यीकृत विधि का सुझाव देते हैं।