अनुमान-गहन प्रशिक्षण डेटा की कमी के कारण जटिल रैंकिंग परिदृश्यों में मौजूदा पुनः रैंकिंग मॉडल के खराब प्रदर्शन की समस्या का समाधान करने के लिए, यह पत्र अनुमान-गहन प्रशिक्षण डेटा को स्वचालित रूप से संश्लेषित करने के लिए एक फ्रेमवर्क और इसका उपयोग करते हुए एक नया पुनः रैंकिंग मॉडल, ReasonRank, प्रस्तावित करता है। प्रशिक्षण डेटा संश्लेषण फ्रेमवर्क विभिन्न डोमेन से क्वेरीज़ और पैराग्राफ़ आयात करता है, DeepSeek-R1 का उपयोग करके उच्च-गुणवत्ता वाले प्रशिक्षण लेबल उत्पन्न करता है, और एक स्व-संगत डेटा फ़िल्टरिंग तंत्र के माध्यम से डेटा की गुणवत्ता सुनिश्चित करता है। ReasonRank दो-चरणीय प्रशिक्षण-पश्चात दृष्टिकोण का उपयोग करता है: अनुमान पैटर्न सीखने के लिए एक पर्यवेक्षित फ़ाइन-ट्यूनिंग चरण और रैंकिंग क्षमता में सुधार के लिए एक सुदृढीकरण सीखने का चरण। इसके बहु-परिप्रेक्ष्य रैंकिंग पुरस्कार पारंपरिक रैंकिंग मीट्रिक-आधारित पुरस्कारों की तुलना में अधिक प्रभावी सीखने को सक्षम करते हैं