Los métodos existentes de aprendizaje por refuerzo (AR) fuera de línea operan principalmente en entornos con restricciones por lotes, restringiendo el algoritmo a una distribución específica de estado-acción presente en el conjunto de datos. Esto reduce el impacto de los cambios en la distribución, pero restringe la política a las acciones observadas. En este artículo, mitigamos estas limitaciones mediante la introducción del AR fuera de línea con restricciones de estado, un novedoso marco que se centra únicamente en la distribución de estados del conjunto de datos. Este enfoque permite que la política realice acciones de alta calidad fuera de la distribución, generando estados dentro de ella, lo que mejora considerablemente el potencial de aprendizaje. El entorno propuesto no solo amplía el horizonte de aprendizaje, sino que también mejora la capacidad de combinar eficazmente diferentes trayectorias en el conjunto de datos, una propiedad excepcionalmente deseable del AR fuera de línea. Este estudio se basa en hallazgos teóricos para seguir avanzando en esta área. Además, presentamos StaCQ, un algoritmo de aprendizaje profundo que alcanza un rendimiento de vanguardia en el conjunto de datos de referencia D4RL y es coherente con las propuestas teóricas. StaCQ sienta las bases para futuras exploraciones en esta área.