오프라인 강화학습(Offline RL)은 외부 데이터셋에 의존하기 때문에 다른 머신러닝 프레임워크와 마찬가지로 데이터 중독 공격에 취약하며, 순차적인 특성으로 인해 그 취약성이 더욱 심화됩니다. 본 논문에서는 오프라인 강화학습의 중독 공격에 대한 위험을 완화하기 위해, 상태별 행동과 전체 예상 누적 보상 모두에 대한 강건성을 보장하는 더 큰 보장을 제공하는 인증된 방어 기법을 확장합니다. 본 연구는 차등 프라이버시의 특성을 활용하여 연속 및 이산 공간, 그리고 확률적 및 결정적 환경 모두에 적용 가능하도록 하여 달성 가능한 보장의 범위와 적용 가능성을 크게 확장합니다. 실험 결과에 따르면, 본 접근 방식은 최대 7%의 훈련 데이터가 중독된 경우에도 성능 저하가 50%를 넘지 않도록 보장하며, 이는 기존 연구~\citep{wu_copa_2022}의 0.008%보다 크게 향상된 결과입니다. 또한, 인증된 반경이 5배 더 큽니다. 이는 본 프레임워크가 오프라인 강화학습의 안전성과 신뢰성을 향상시킬 수 있는 잠재력을 보여줍니다.