Cet article se concentre sur les caractéristiques du bootstrapping (génération de nouvelles prédictions de valeurs à partir de prédictions de valeurs précédentes) dans l'apprentissage par différences temporelles (TD), et la plupart des méthodes de contrôle TD utilisent le bootstrapping à partir d'une seule fonction de valeur d'action (par exemple, Q-learning, Sarsa). En revanche, les méthodes qui utilisent deux fonctions de valeur asymétriques (par exemple, QV-learning ou AV-learning) pour apprendre des valeurs d'action en utilisant des valeurs d'état comme étapes intermédiaires ont reçu relativement peu d'attention. Cet article analyse ces familles d'algorithmes en termes de convergence et d'efficacité d'échantillonnage, révélant que si les deux familles sont plus efficaces que Expected Sarsa dans le cadre de la prédiction, seul l'AV-learning offre un avantage significatif sur le Q-learning dans le cadre du contrôle. Enfin, nous présentons le Regularized Dueling Q-learning (RDQ), un nouvel algorithme d'AV-learning qui surpasse significativement le Dueling DQN sur le benchmark MinAtar.