Cet article explore comment améliorer l'efficacité de l'apprentissage par renforcement (RL) en exploitant les dérivées du simulateur. Bien que les approches existantes basées sur les gradients aient démontré des performances supérieures à celles des approches non dérivées, l'accès aux gradients du simulateur reste complexe en raison des coûts de mise en œuvre ou de l'inaccessibilité. L'apprentissage par renforcement basé sur un modèle (MBRL) peut approximer ces gradients à l'aide de modèles dynamiques appris, mais les erreurs de prédiction s'accumulent pendant l'apprentissage, ce qui peut réduire l'efficacité du solveur et dégrader les performances des politiques. Dans cet article, nous proposons une méthode qui dissocie la génération de trajectoires et le calcul de gradients. Les trajectoires sont développées à l'aide d'un simulateur, et les gradients sont calculés par rétropropagation via le modèle différentiable appris du simulateur. Cette conception hybride permet une optimisation de premier ordre efficace et cohérente des politiques, même lorsque les gradients du simulateur ne sont pas disponibles, et permet d'apprendre des évaluateurs plus précis à partir de trajectoires simulées. La méthode proposée atteint l'efficacité et la rapidité d'échantillonnage d'optimiseurs spécialisés comme SHAC, tout en conservant la généralité des approches standard comme PPO et en évitant les dysfonctionnements observés dans d'autres méthodes MBRL de premier ordre. Nous validons expérimentalement l'algorithme sur des tâches de contrôle de référence et démontrons son efficacité sur un véritable robot quadrupède Go2 dans des tâches de marche quadrupède et bipède.