본 논문은 강화학습에서 중요도 샘플링을 이용한 오프-폴리시 평가(OPE)를 연구하며, 특히 행동 정책 추정에 초점을 맞추고 있다. 기존 연구는 진정한 행동 정책이 마르코프적이더라도 과거에 의존적인 행동 정책을 추정하는 것이 평균 제곱 오차(MSE)를 낮출 수 있음을 경험적으로 보여주었다. 하지만 왜 과거를 사용하는 것이 MSE를 낮추는지에 대한 질문은 여전히 열려 있었다. 본 논문에서는 일반적인 중요도 샘플링(IS) 추정기의 MSE에 대한 바이어스-분산 분해를 유도하여 이러한 역설을 이론적으로 설명함으로써 해결한다. 과거에 의존적인 행동 정책 추정은 유한 표본 바이어스를 증가시키지만, 점근적 분산을 감소시킨다는 것을 보여준다. 또한, 추정된 행동 정책이 더 긴 과거를 조건으로 할수록 분산이 일관되게 감소함을 보인다. 본 논문은 이러한 결과를 순차적 IS 추정기, 이중 강건 추정기, 주변화된 IS 추정기를 포함한 다양한 다른 OPE 추정기에 확장하며, 행동 정책을 매개변수적으로 또는 비매개변수적으로 추정한다.