본 논문은 NGINX와 같은 웹 프록시에서 사용되는 기존의 LRU(Least-Recently-Used) 캐시 교체 정책의 한계를 지적하고, 강화 학습 기반의 새로운 교체 정책인 Cold-RL을 제안한다. Cold-RL은 ONNX 사이드카를 이용하여 듀얼링 DQN(Deep Q-Network)을 구현하여 500 마이크로초 이내의 엄격한 시간 제약 조건 하에서 캐시 교체 결정을 내린다. 캐시 객체의 나이, 크기, 히트 횟수, 도착 간격 시간, 남은 TTL, 마지막 원본 RTT 등 6가지의 경량 특징을 추출하여 교체 대상 객체를 선택하며, 훈련은 NGINX 접근 로그를 재생하여 시뮬레이션 환경에서 수행된다. 실험 결과, Cold-RL은 다양한 캐시 크기에서 기존의 LRU, LFU, 크기 기반, 적응형 LRU 및 하이브리드 기법보다 높은 적중률을 보였다. 특히 작은 캐시 크기(25MB)에서는 146%의 향상을 보였으며, 큰 캐시 크기(400MB)에서는 기존 기법과 유사한 성능을 나타냈다. 추론 과정에서 CPU 오버헤드는 2% 미만이며, 95% 백분위수 지연 시간은 500 마이크로초 이내를 유지한다.