강화 학습은 순차적 의사 결정에 유용한 도구이지만, 상호 작용 데이터에서 발생하는 개인 정보 보호 문제로 인해 적용이 제한될 수 있다. 특히 운영 및 사용자 데이터로부터 학습하는 경우 개인 정보 유추 공격에 노출될 수 있는 첨단 네트워크 시스템에서 이 문제가 심각하다. 기존의 차등 프라이버시(DP) 기반 강화 학습 모델은 중앙 집중식 모델의 경우 신뢰할 수 있는 서버가 필요하여 단일 실패 지점 위험을 초래하고, 지역 모델의 경우 성능 저하가 커서 많은 네트워크 응용 프로그램에 적합하지 않다. 본 논문에서는 신뢰 가정을 사용하지 않고 강력한 프라이버시 보장을 제공하는 중간 신뢰 모델인 셔플 프라이버시 모델을 활용하여 이 격차를 해소한다. 에피소드 강화 학습을 위한 최초의 일반적인 정책 제거 기반 알고리즘인 SDP-PE(Shuffle Differentially Private Policy Elimination)를 제안한다. SDP-PE는 새로운 지수 배치 스케줄과 "망각" 메커니즘을 도입하여 프라이버시와 학습 성능 간의 상충 관계를 조절한다. SDP-PE는 거의 최적의 후회 경계를 달성하여 중앙 집중식 모델과 유사한 유틸리티를 유지하면서 지역 모델보다 훨씬 뛰어난 프라이버시-후회 절충안을 달성한다. 수치 실험 역시 이론적 결과를 뒷받침하며 SDP-PE의 효과를 입증한다. 본 연구는 네트워크 시스템에서 안전한 데이터 기반 의사 결정을 위한 셔플 모델의 실행 가능성을 확립한다.