본 논문은 상황별 밴딧 알고리즘의 적응성으로 인한 통계적 추론의 어려움을 다룬다. 특히, 널리 사용되는 LinUCB와 같은 알고리즘이 보상 모델의 오류로 인해 수렴하지 못하고, 이로 인해 통계적 추론에 심각한 문제가 발생할 수 있음을 지적한다. 실제 환경에서는 복잡한 동적 시스템을 선형적으로 근사하는 등 모델 오류가 흔히 발생하므로 이는 중요한 문제이다. 이에 논문에서는 모델 오류에도 수렴이 보장되는 알고리즘 클래스를 제안하고, 역확률 가중 Z-추정량(IPW-Z)에 기반한 일반적인 추론 프레임워크를 개발하여 그 점근적 정규성과 일관된 분산 추정량을 확립한다. 시뮬레이션 결과는 제안된 방법이 강건하고 데이터 효율적인 신뢰구간을 제공하며, 오프라인 정책 평가의 특수한 경우에만 존재하는 기존 방법보다 성능이 우수함을 보여준다.