यह पत्र टेम्पोरल-डिफरेंस लर्निंग (TD) में बूटस्ट्रैपिंग (पिछले मान पूर्वानुमानों का उपयोग करके नए मान पूर्वानुमान उत्पन्न करना) की विशेषताओं पर केंद्रित है, और अधिकांश TD नियंत्रण विधियाँ एकल क्रिया-मान फ़ंक्शन (जैसे, Q-लर्निंग, Sarsa) से बूटस्ट्रैपिंग का उपयोग करती हैं। इसके विपरीत, मध्यवर्ती चरणों के रूप में अवस्था मानों का उपयोग करके क्रिया मान सीखने के लिए दो असममित मान फ़ंक्शन (जैसे, QV-लर्निंग या AV-लर्निंग) का उपयोग करने वाले तरीकों पर अपेक्षाकृत कम ध्यान दिया गया है। यह पत्र अभिसरण और नमूनाकरण दक्षता के संदर्भ में इन एल्गोरिथम परिवारों का विश्लेषण करता है, और यह बताता है कि जबकि दोनों परिवार भविष्यवाणी सेटिंग में अपेक्षित Sarsa से अधिक कुशल हैं, केवल AV-लर्निंग ही नियंत्रण सेटिंग में Q-लर्निंग पर एक महत्वपूर्ण लाभ प्रदान करता है।