본 논문은 기존의 반실증적(counterfactual) 방법론이 주로 단일 단계 의사결정에 초점을 맞추고 순차적 의사결정 과제에는 직접 적용되지 않는다는 점을 지적하며, 마르코프 의사결정 과정(MDP)에 대한 반실증적 전략을 제시합니다. 원치 않는 결과를 초래할 확률이 일정 수준을 넘는 초기 전략이 주어지면, 해당 확률을 한계치 미만으로 줄이기 위해 초기 전략에 대한 최소한의 변경을 식별합니다. 비선형 최적화 문제에 대한 해결책으로 이러한 반실증적 전략을 인코딩하고, 다양한 반실증적 전략을 합성하기 위해 인코딩을 확장합니다. 실제 세계 데이터셋 네 개를 사용하여 접근 방식을 평가하고, 정교한 순차적 의사결정 과제에서 실용성을 보여줍니다.