Este documento se centra en las características del bootstrapping (generación de nuevas predicciones de valores a partir de predicciones de valores anteriores) en el aprendizaje de diferencias temporales (TD), y la mayoría de los métodos de control de TD utilizan bootstrapping desde una única función de valor de acción (p. ej., Q-learning, Sarsa). Por el contrario, los métodos que utilizan dos funciones de valor asimétricas (p. ej., QV-learning o AV-learning) para aprender valores de acción utilizando valores de estado como pasos intermedios han recibido relativamente poca atención. Este documento analiza estas familias de algoritmos en términos de convergencia y eficiencia de muestreo, revelando que si bien ambas familias son más eficientes que Expected Sarsa en el entorno de predicción, solo AV-learning ofrece una ventaja significativa sobre Q-learning en el entorno de control. Finalmente, presentamos Regularized Dueling Q-learning (RDQ), un novedoso algoritmo de AV-learning que supera significativamente a Dueling DQN en el benchmark MinAtar.