본 논문은 6G 네트워크에서 적응형 빔 스위칭의 어려움(고주파, 이동성, 차단)을 해결하기 위해 심층 강화 학습(DRL) 기반의 온라인 학습 프레임워크를 제안한다. 향상된 상태 표현(속도 및 차단 이력), GRU 아키텍처, 우선 순위 경험 재생을 사용하여 실시간 빔 최적화를 수행한다. 시간 상관 차단 하에 Nvidia Sionna를 통해 검증된 결과, 기존 휴리스틱 방식에 비해 SNR, 처리량, 정확도 측면에서 상당한 복원력 향상을 보였다. 또한, 향상된 DRL 에이전트는 시간적 의존성을 활용하여 반응형 다중 무장 밴딧(MAB) 기준 모델보다 성능 변동성이 낮았다. 이는 6G 빔 관리를 위한 메모리와 우선 순위 학습의 이점을 보여주는 동시에 MAB가 강력한 기준 모델임을 확인한다.