본 논문은 Markov Decision Processes (MDPs)에서 반사실적 추론의 근본적인 문제를 다룹니다. 주어진 MDP 경로 τ에 대해, 이러한 추론은 τ에서 관찰된 것과 다른 행동 순서 하에서 얻어진 τ의 가정적 버전을 설명하는 반사실적 경로 τ'를 도출할 수 있게 합니다. 그러나 반사실적 상태와 행동이 시간이 지남에 따라 관찰된 것에서 벗어남에 따라, 관찰 τ가 더 이상 반사실적 세계에 영향을 미치지 않을 수 있으며, 이는 분석이 더 이상 개별 관찰에 맞춰지지 않고 개입 결과가 반사실적 결과가 되는 것을 의미합니다. 이 문제는 MDP 반사실을 위해 사용되는 인기 있는 Gumbel-max 구조적 인과 모델에 특히 영향을 미치지만, 지금까지 간과되어 왔습니다. 본 논문에서는 반사실적 분포와 개입적 분포를 비교하여 영향에 대한 공식적인 특성화를 제시합니다. 영향 제약 조건을 자동으로 만족하는 반사실적 모델을 구성하는 알고리즘을 고안합니다. 이러한 모델을 활용하여 주어진 보상 구조에 대해 최적일 뿐만 아니라 관찰된 경로에 맞춰지는 반사실적 정책을 도출합니다. 정책 최적성과 영향 제약 조건의 강도 사이에는 불가피한 절충이 있지만, 실험을 통해 관찰의 영향을 받으면서도 (거의) 최적의 정책을 도출하는 것이 가능함을 보여줍니다.