본 논문은 연속 상태-행동 공간에서의 강화 학습(RL)의 샘플 효율 저하 및 경로적 물리적 일관성 부족 문제를 해결하기 위해, 미분 이중 공식을 통한 연속 시간 제어 관점에서 RL을 재구성하는 새로운 프레임워크인 미분 강화 학습(Differential RL)을 제시합니다. 이는 물리적 사전 정보를 포함하고 명시적인 제약 조건 없이 일관된 궤적을 보장하는 Hamiltonian 구조를 유도합니다. Differential RL을 구현하기 위해, 샘플 효율 및 동적 정렬을 개선하기 위해 궤적을 따라 국소 이동 연산자를 개선하는 점별, 단계별 알고리즘인 미분 정책 최적화(DPO)를 개발했습니다. 표준 RL에서는 사용할 수 없는 점별 수렴 보장을 확립하고, $O(K^{5/6})$의 경쟁력 있는 이론적 후회 경계를 도출했습니다. 실험적으로 DPO는 표면 모델링, 그리드 제어 및 분자 동역학을 포함한 대표적인 과학 컴퓨팅 작업에서 저데이터 및 물리적 제약 조건 하에서 표준 RL 기준보다 우수한 성능을 보였습니다.