Hybrid offline-online 강화 학습(O2O RL)은 샘플 효율성과 견고한 탐색을 약속하지만, 오프라인 및 온라인 데이터 간의 분포 이동으로 인해 불안정성을 겪습니다. 본 논문에서는 RLPD-GX를 소개하며, 이는 정책 최적화와 안전성 강제를 분리합니다. 즉, 보상을 추구하는 학습자는 자유롭게 탐색하고, 투영 기반 보호자는 규칙 일관성 있는 실행과 안전한 가치 백업을 보장합니다. 이 설계를 통해 보수적인 정책으로 붕괴되지 않으면서 온라인 상호 작용의 탐구적 가치를 보존합니다. 또한, 훈련을 안정화하기 위해 시간적 지평을 점진적으로 확장하고 오프라인-온라인 데이터 혼합을 조절하는 동적 커리큘럼을 제안합니다. 우리는 보호된 벨만 연산자의 축소 성질을 통해 수렴을 증명하고, Atari-100k에서 3.02의 정규화된 평균 점수(이전 하이브리드 방법보다 +45% 향상)를 달성하여 더 강력한 안전성과 안정성을 보이는 최첨단 성능을 경험적으로 보여줍니다. Atari 외에도 안전에 중요한 장기적 과제에서 일관된 이득을 보여주며, 이는 설계의 일반성을 강조합니다. 광범위하고 포괄적인 결과는 분리된 안전성 강제가 견고한 O2O RL을 위한 간단하면서도 원칙적인 경로임을 강조하며, 강화 학습에서 탐험과 안전성을 조화시키는 더 넓은 패러다임을 제시합니다.