본 논문은 전문가의 시범 데이터셋이 주어졌을 때, 전문가가 최적이 되는 보상을 복구하는 역강화학습(IRL) 문제를 해결하는 모델-프리 알고리즘을 제안합니다. 특히, 보상에 대한 확률적 경사 하강법 업데이트와 정책에 대한 확률적 소프트 정책 반복 업데이트를 사용합니다. 생성 모델에 접근할 수 있다고 가정하면, 제안된 알고리즘이 마르코프 의사결정 과정(MDP)의 $\mathcal{O}(1/\varepsilon^{2})$ 샘플을 사용하여 전문가가 $\varepsilon$-최적인 보상을 복구한다는 것을 증명합니다. 또한, $\mathcal{O}(1/\varepsilon^{4})$ 샘플을 사용하면 복구된 보상에 해당하는 최적 정책이 총 변동 거리에서 전문가 정책에 $\varepsilon$-근접하다는 것을 증명합니다.