Bài báo này tập trung vào các đặc điểm của bootstrapping (tạo ra các dự đoán giá trị mới bằng cách sử dụng các dự đoán giá trị trước đó) trong học chênh lệch thời gian (TD) và hầu hết các phương pháp điều khiển TD sử dụng bootstrapping từ một hàm giá trị hành động duy nhất (ví dụ: Q-learning, Sarsa). Ngược lại, các phương pháp sử dụng hai hàm giá trị bất đối xứng (ví dụ: QV-learning hoặc AV-learning) để học các giá trị hành động bằng cách sử dụng các giá trị trạng thái làm các bước trung gian đã nhận được tương đối ít sự chú ý. Bài báo này phân tích các họ thuật toán này về mặt hội tụ và hiệu quả lấy mẫu, cho thấy rằng trong khi cả hai họ đều hiệu quả hơn Expected Sarsa trong bối cảnh dự đoán, thì chỉ có AV-learning mang lại lợi thế đáng kể so với Q-learning trong bối cảnh điều khiển. Cuối cùng, chúng tôi trình bày Regularized Dueling Q-learning (RDQ), một thuật toán AV-learning mới vượt trội hơn đáng kể so với Dueling DQN trên điểm chuẩn MinAtar.