Dans cet article, nous proposons d'appliquer le concept de prédiction de séquences d'actions, essentiel au succès des algorithmes de réplication d'actions, à l'apprentissage par renforcement (RL). Partant du constat que l'intégration de séquences d'actions lors de la prédiction du retour à la réalité terrain réduit les pertes de validation, nous présentons le réseau Q grossier-fin avec séquence d'actions (CQN-AS), un nouvel algorithme RL basé sur les valeurs qui entraîne un réseau critique générant des valeurs Q pour les séquences d'actions. Autrement dit, nous entraînons une fonction de valeur pour apprendre explicitement les résultats de l'exécution des séquences d'actions. Les résultats expérimentaux montrent que le CQN-AS surpasse plusieurs algorithmes de référence sur diverses tâches de contrôle humanoïde à récompense clairsemée et de manipulation de table dans BiGym et RLBench.