Este artículo explora cómo mejorar la eficiencia del aprendizaje de refuerzo (RL) aprovechando las derivadas del simulador. Si bien los enfoques existentes basados en gradientes han demostrado un rendimiento superior al de los enfoques no derivados, acceder a los gradientes del simulador sigue siendo un desafío debido a los costos de implementación o la inaccesibilidad. El aprendizaje de refuerzo basado en modelos (MBRL) puede aproximar estos gradientes mediante modelos dinámicos aprendidos, pero los errores de predicción se acumulan durante el entrenamiento, lo que podría reducir la eficiencia del solucionador y el rendimiento de las políticas. En este artículo, proponemos un método que desacopla la generación de trayectorias y el cálculo de gradientes. Las trayectorias se desarrollan mediante un simulador y los gradientes se calculan mediante retropropagación a través del modelo diferenciable aprendido del simulador. Este diseño híbrido permite una optimización de políticas de primer orden eficiente y consistente, incluso cuando no se dispone de gradientes del simulador, y permite aprender evaluadores más precisos a partir de trayectorias simuladas. El método propuesto logra la eficiencia y velocidad de muestreo de optimizadores especializados como SHAC, a la vez que mantiene la generalidad de enfoques estándar como PPO y evita los errores observados en otros métodos MBRL de primer orden. Validamos experimentalmente el algoritmo en tareas de control de referencia y demostramos su eficacia en un robot cuadrúpedo Go2 real en tareas de marcha cuadrúpeda y bípeda.