본 논문은 강화학습에서 높은 업데이트-데이터 비율(UTD) 알고리즘의 높은 계산 비용 문제를 해결하기 위해, 저 UTD 온라인 학습과 주기적인 오프라인 안정화 단계를 결합한 새로운 알고리즘 SPEQ(Offline Stabilization Phases for Efficient Q-Learning)를 제안합니다. SPEQ는 고정된 리플레이 버퍼에서 높은 UTD 비율로 Q-함수를 미세 조정하는 오프라인 안정화 단계를 통해 비효율적인 업데이트를 줄입니다. 이러한 구조화된 학습 일정은 계산 효율성과 샘플 효율성 간의 균형을 최적으로 맞춰 높은 UTD 및 낮은 UTD 접근 방식의 한계를 해결합니다. MuJoCo 연속 제어 벤치마크에서 기존 최고 성능의 고 UTD 알고리즘에 비해 4099% 적은 기울기 업데이트와 2778% 적은 훈련 시간으로 동등하거나 더 나은 성능을 달성함을 실험적으로 보여줍니다.