この論文は、時間差学習(TD)でのブートストラップ(value predictionを使用して新しいvalue predictionを生成すること)の特徴と、ほとんどのTD制御方法が単一の行動価値関数(例:Q-learning、Sarsa)でブートストラップすることに焦点を当てています。一方、2つの非対称値関数(状態値を中間段階として使用して行動値を学習する)からブートストラップする方法(QV-learningまたはAV-learning)には比較的少ない関心がありました。本論文では,収束性と標本効率の面でこれらのアルゴリズム系列を分析し,予測設定では両系列はExpected Sarsaより効率的であるが,制御設定ではAV-learning法だけがQ-learningに比べて大きな利点を提供することを明らかにした。最後に、MinAtarベンチマークでDueling DQNを大幅に上回る新しいAV学習アルゴリズムであるRegularized Dueling Q-learning(RDQ)を紹介します。