En este artículo, presentamos un novedoso algoritmo de aprendizaje por refuerzo denominado aprendizaje por refuerzo de secuencias (SRL). SRL está diseñado para generar una secuencia de acciones para un estado de entrada dado, lo que permite un control efectivo incluso a bajas frecuencias de decisión. Abordamos la dificultad de aprender secuencias de acciones mediante el uso de modelos y arquitecturas de acción-crítico en diferentes escalas de tiempo. En particular, proponemos un mecanismo de "repetición temporal" en el que el crítico utiliza el modelo para estimar estados intermedios entre acciones básicas, proporcionando señales de aprendizaje para cada acción de la secuencia. Una vez completado el aprendizaje, el generador de acciones genera secuencias de acciones independientemente del modelo, logrando un control sin modelo a bajas frecuencias. Para evaluar mejor el rendimiento a diversas frecuencias de decisión, introducimos la métrica de puntuación promedio de frecuencia (FAS) y demostramos la superioridad de SRL sobre los algoritmos existentes en tareas de control continuo.