본 논문은 마르코프 결정 과정(MDP) 내에서 관찰된 궤적으로부터 알 수 없는 보상 함수를 추론하여 에이전트 행동의 동기 구조를 밝히는 역 강화 학습(IRL)에 대한 연구를 제시한다. 기존 IRL 방법론은 전이 함수에 접근해야 하지만, 본 연구는 Fokker-Planck (FP) 역학에 의해 지배되는 시스템에 맞춘 새로운 물리학 제약 IRL 프레임워크인 FP-IRL을 제안한다. FP-IRL은 궤적 데이터로부터 보상 함수와 전이 함수를 동시에 추론하며, 샘플링된 전이에 대한 접근 없이도 작동한다. MDP와 FP 방정식 간의 등가성을 활용하여 보상 최대화와 FP 역학에서의 자유 에너지 최소화 사이의 연결을 사용한다. 이 연결을 통해 변분 시스템 식별을 사용하여 잠재 함수를 추론하고, 분석적 표현식을 사용하여 전체 MDP 구성 요소(보상, 전이, 정책)를 복구한다. 합성 벤치마크와 Mountain Car 문제의 수정된 버전을 통해 FP-IRL의 효과를 입증하며, 에이전트 인센티브를 정확하게 복구하면서 계산 효율성과 물리적 해석 가능성을 유지함을 보여준다.