यह शोधपत्र परिमित-क्षितिज और अनंत-क्षितिज माध्य-प्रतिफल मार्कोव निर्णय प्रक्रियाओं (एमडीपी) के लिए नवीन शास्त्रीय और क्वांटम ऑनलाइन एल्गोरिदम प्रस्तावित करता है। प्रस्तावित एल्गोरिदम एक संकर अन्वेषणात्मक-उत्पादक सुदृढीकरण अधिगम (आरएल) मॉडल पर आधारित है जिसमें अभिकर्ता पर्यावरण के साथ स्वतंत्र रूप से अंतःक्रिया कर सकते हैं, कभी-कभी उत्पादक प्रतिचयन (अर्थात, एक "सिम्युलेटर" तक पहुँच) के माध्यम से। उत्पादक मॉडलों में इष्टतम नीतियों का अनुमान लगाने के लिए शास्त्रीय और क्वांटम दोनों एल्गोरिदम का उपयोग करके, हम प्रदर्शित करते हैं कि इष्टतम नीतियों की सीधे गणना और उपयोग करके, हम कई आरएल प्रतिमानों, जैसे "अनिश्चितता में आशावाद" और "पश्चगामी प्रतिचयन" से बचते हैं, और पिछले अध्ययनों की तुलना में बेहतर पछतावे की सीमाएँ प्राप्त करते हैं। परिमित-क्षितिज एमडीपी के लिए, क्वांटम एल्गोरिदम एक पछतावे की सीमा प्राप्त करता है जो केवल लघुगणकीय रूप से समय चरणों T की संख्या पर निर्भर करती है, जिससे शास्त्रीय $O(\sqrt{T})$ सीमा पार हो जाती है। यह गांगुली एट अल. (arXiv'23) और झोंग एट अल. द्वारा किए गए पिछले क्वांटम अध्ययनों की समय निर्भरता के अनुरूप है। (ICML'24), लेकिन अन्य प्राचलों, जैसे कि अवस्था-स्थान आकार S और क्रिया-स्थान आकार A, पर बेहतर निर्भरता के साथ। अनंत-क्षितिज MDP के लिए, शास्त्रीय और क्वांटम सीमाएँ अभी भी $O(\sqrt{T})$ निर्भरता बनाए रखती हैं, लेकिन उनके S और A गुणांक बेहतर होते हैं। फिर भी, हम अनंत-क्षितिज MDP के लिए एक नया पछतावा मीट्रिक प्रस्तावित करते हैं, जो दर्शाता है कि क्वांटम एल्गोरिदम में शास्त्रीय एल्गोरिदम की तुलना में घातांकीय रूप से बेहतर $\operatorname{poly}\log{T}$ पछतावा होता है। अंत में, हम सभी परिणामों को संहत अवस्था स्थानों पर सामान्यीकृत करते हैं।