Bài báo này khám phá cách cải thiện hiệu quả học tập của học tăng cường (RL) bằng cách tận dụng các đạo hàm mô phỏng. Mặc dù các phương pháp tiếp cận dựa trên gradient hiện có đã chứng minh hiệu suất vượt trội so với các phương pháp không dùng đạo hàm, việc truy cập các gradient của mô phỏng vẫn còn nhiều thách thức do chi phí triển khai hoặc tính không khả thi. Học tăng cường dựa trên mô hình (MBRL) có thể xấp xỉ các gradient này bằng cách sử dụng các mô hình động đã học, nhưng lỗi dự đoán tích tụ trong quá trình huấn luyện, có khả năng làm giảm hiệu quả của bộ giải và làm giảm hiệu suất chính sách. Trong bài báo này, chúng tôi đề xuất một phương pháp tách biệt việc tạo quỹ đạo và tính toán gradient. Quỹ đạo được phát triển bằng cách sử dụng một trình mô phỏng, và gradient được tính toán bằng cách lan truyền ngược thông qua mô hình khả vi đã học của trình mô phỏng. Thiết kế lai này cho phép tối ưu hóa chính sách bậc nhất hiệu quả và nhất quán ngay cả khi không có gradient mô phỏng, và cho phép học các bộ đánh giá chính xác hơn từ các quỹ đạo mô phỏng. Phương pháp được đề xuất đạt được hiệu suất mẫu và tốc độ của các bộ tối ưu hóa chuyên dụng như SHAC trong khi vẫn duy trì tính tổng quát của các phương pháp tiếp cận tiêu chuẩn như PPO và tránh được những sai sót thường thấy trong các phương pháp MBRL bậc nhất khác. Chúng tôi xác thực thuật toán bằng thực nghiệm trên các nhiệm vụ kiểm soát chuẩn và chứng minh tính hiệu quả của nó trên một robot bốn chân Go2 thực sự trong cả nhiệm vụ đi bộ bằng bốn chân và bằng hai chân.