본 논문은 확률적 환경에서 Adversarial Inverse Reinforcement Learning (AIRL) 방법의 성능 저하 문제를 해결하는 것을 목표로 한다. 이를 위해 동적 정보를 보상 형성에 주입하여 확률적 환경에서도 이론적 보장을 갖는 새로운 방법을 제안한다. 또한, 전이 모델 추정을 보상 형성에 직접 통합하는 Model-Enhanced AIRL 프레임워크를 제시하고, 보상 오차 경계 및 성능 차이 경계에 대한 포괄적인 이론적 분석을 제공한다. MuJoCo 벤치마크 실험 결과, 제안하는 방법은 기존 방법 대비 확률적 환경에서 우수한 성능을 보이며, 결정적 환경에서도 경쟁력 있는 성능을 달성했으며, 샘플 효율성 또한 크게 향상되었다.