En este artículo, proponemos aplicar el concepto de predicción de secuencias de acción, crucial para el éxito de los algoritmos de replicación de acciones, al aprendizaje por refuerzo (RL). Basándonos en la observación de que la incorporación de secuencias de acción al predecir el retorno a la acción de la verdad fundamental reduce la pérdida de validación, presentamos la Red Q de Grueso a Fino con Secuencia de Acción (CQN-AS), un novedoso algoritmo de RL basado en valores que entrena una red crítica que genera valores Q para las secuencias de acción. Es decir, entrenamos una función de valor para aprender explícitamente los resultados de las ejecuciones de secuencias de acción. Los resultados experimentales muestran que CQN-AS supera a varios algoritmos de referencia en diversas tareas de control de humanoides con recompensa dispersa y manipulación de mesa en BiGym y RLBench.