Cet article aborde le problème de surestimation, largement observé en apprentissage par renforcement (RL), notamment en Q-learning, qui est à la base de nombreux algorithmes d'apprentissage par renforcement profond basés sur la valeur. Le double Q-learning est un algorithme proposé pour résoudre ce problème en entraînant deux fonctions Q et en les utilisant pour réduire la corrélation entre la sélection et l'évaluation des actions au niveau de la cible d'amorçage. Dans cet article, nous étudions les algorithmes qui appliquent l'idée fondamentale du double Q-learning au RL profond basé sur la valeur, que nous appelons Deep Double Q-learning (DDQL). Notre objectif est de vérifier si le DDQL réduit la surestimation et surpasse le Double DQN, et s'il existe une implémentation performante du DDQL. Des résultats expérimentaux sur 57 jeux Atari 2600 montrent que le DDQL réduit la surestimation et surpasse le Double DQN globalement sans hyperparamètres supplémentaires. Nous avons également étudié plusieurs aspects du DDQL, notamment l'architecture réseau, le taux de relecture et la stratégie d'échantillonnage par mini-lots.