본 논문은 시간차 학습(TD)에서 부트스트래핑(value prediction을 이용해 새로운 value prediction을 생성하는 것)의 특징과, 대부분의 TD 제어 방법이 단일 행동-가치 함수(예: Q-learning, Sarsa)에서 부트스트래핑하는 것에 초점을 맞춥니다. 반면, 두 개의 비대칭 가치 함수(상태 가치를 중간 단계로 사용하여 행동 가치를 학습)에서 부트스트래핑하는 방법(QV-learning 또는 AV-learning)에는 상대적으로 적은 관심이 있었습니다. 본 논문에서는 수렴성과 표본 효율성 측면에서 이러한 알고리즘 계열을 분석하여 예측 설정에서는 두 계열 모두 Expected Sarsa보다 효율적이지만, 제어 설정에서는 AV-learning 방법만이 Q-learning에 비해 큰 이점을 제공한다는 것을 밝힙니다. 마지막으로, MinAtar 벤치마크에서 Dueling DQN을 상당히 능가하는 새로운 AV-learning 알고리즘인 Regularized Dueling Q-learning (RDQ)을 제시합니다.