यह शोधपत्र बड़े पैमाने के अनुमान मॉडलों (LRMs) की बहु-दौर समस्या-समाधान क्षमता में सुधार पर केंद्रित है। मौजूदा सुदृढीकरण अधिगम (RL) विधियाँ सत्यापन योग्य पुरस्कारों का उपयोग करके एकल-दौर प्रतिमान में LRMs को प्रशिक्षित करती हैं, लेकिन इससे बहु-दौर समस्या-समाधान और प्रासंगिक प्रतिक्रिया-सुधार क्षमताएँ कमज़ोर हो जाती हैं। यह अध्ययन दर्शाता है कि केवल सरल एकल-प्रतिक्रिया (जैसे, "चलो फिर से प्रयास करते हैं") का उपयोग करके बहु-दौर RL प्रशिक्षण, एकल-दौर प्रदर्शन और बहु-दौर अनुमान प्रदर्शन, दोनों में सुधार कर सकता है। इसे प्राप्त करने के लिए, हम एक नवीन सुदृढीकरण अधिगम विधि, एकल-प्रतिक्रिया अवलोकन के रूप में (UFO), प्रस्तावित करते हैं, जो एकल-प्रतिक्रिया का उपयोग अवलोकनों के रूप में करती है और इसे मौजूदा एकल-दौर RL प्रशिक्षण सेटिंग्स पर आसानी से लागू किया जा सकता है। प्रायोगिक परिणाम दर्शाते हैं कि UFO का उपयोग करके RL प्रशिक्षण, एकल-दौर प्रदर्शन को बनाए रखते हुए बहु-दौर अनुमान सटीकता में 14% तक सुधार करता है, जिससे भाषा मॉडल बहु-दौर समस्याओं में प्रतिक्रिया के प्रति अधिक संवेदनशील हो जाते हैं। इसके अतिरिक्त, सही उत्तर तक पहुंचने के लिए आवश्यक राउंड की संख्या को कम करने और गलतियाँ होने पर विविध निष्कर्षों को प्रोत्साहित करने के लिए, हमने एक पुरस्कार संरचना तैयार की है जो मॉडल को प्रत्येक राउंड में सावधानीपूर्वक और विचारपूर्वक उत्तर उत्पन्न करने के लिए प्रोत्साहित करती है।