본 논문은 시뮬레이터의 도함수를 활용하여 강화학습(RL)의 학습 효율을 향상시키는 방법에 대한 연구입니다. 기존의 기울기 기반 접근 방식은 도함수를 사용하지 않는 방법에 비해 우수한 성능을 보였지만, 시뮬레이터의 기울기에 접근하는 것은 구현 비용이나 접근 불가능성으로 인해 어려움이 있습니다. 모델 기반 강화학습(MBRL)은 학습된 동역학 모델을 통해 이러한 기울기를 근사할 수 있지만, 훈련 과정에서 예측 오류가 누적되어 솔버의 효율성이 저하되고 정책 성능이 저하될 수 있습니다. 본 논문에서는 궤적 생성과 기울기 계산을 분리하는 방법을 제안합니다. 궤적은 시뮬레이터를 사용하여 전개되고, 기울기는 시뮬레이터의 학습된 미분 가능한 모델을 통해 역전파를 사용하여 계산됩니다. 이러한 하이브리드 설계는 시뮬레이터의 기울기를 사용할 수 없는 경우에도 효율적이고 일관된 1차 정책 최적화를 가능하게 하고, 시뮬레이션 궤적에서 더 정확한 평가자를 학습할 수 있습니다. 제안된 방법은 SHAC과 같은 특수 최적화기의 샘플 효율성과 속도를 달성하면서 PPO와 같은 표준 접근 방식의 일반성을 유지하고 다른 1차 MBRL 방법에서 관찰되는 잘못된 동작을 방지합니다. 벤치마크 제어 작업에서 알고리즘을 실험적으로 검증하고, 4족 및 2족 보행 작업 모두에서 실제 Go2 4족 보행 로봇에서 그 효과를 입증합니다.