본 논문은 6G 시대 확장 현실(XR) 애플리케이션을 위한 자원 스케줄링 문제를 다룬다. XR은 엄격한 지연 시간 제약을 가진 버스트 트래픽을 발생시키며, 이는 네트워크 혼잡의 주요 원인이 된다. 기존 알고리즘의 효율성 부족을 해결하기 위해, 본 논문은 하드 지연 시간 제약을 고려한 하이브리드 강화 학습 프레임워크(HRL-RSHLC)를 제안한다. HRL-RSHLC는 기존 정책과 전문가 지식 기반 정책을 재사용하여 성능을 향상시키며, 정책 재사용 확률과 새로운 정책의 공동 최적화를 마르코프 의사 결정 문제(MDP)로 공식화하여 사용자의 하드 지연 시간 제약 효과 처리량(HLC-ET)을 극대화한다. 본 논문은 HRL-RSHLC가 임의의 초기점에서 KKT 점에 수렴함을 증명하고, 시뮬레이션을 통해 기존 알고리즘보다 우수한 성능과 빠른 수렴 속도를 보임을 확인한다.