본 논문은 밀리미터파(mmWave) 통신 시스템에서 증가하는 고급 빔 절취 공격에 대한 새로운 방어 프레임워크를 제시한다. 이 프레임워크는 심층 강화 학습(DRL) 에이전트를 활용하여 적응적으로 공격에 대응하며, 통합 감지 및 통신(ISAC) 기능을 활용하여 적극적으로 위협을 평가한다. Proximal Policy Optimization (PPO) 알고리즘 기반의 DRL 에이전트는 ISAC 프로빙 동작을 동적으로 제어하여 의심스러운 활동을 조사한다. 특히, 성공적인 탐지를 보장하는 집중적 커리큘럼 학습 전략을 도입하여 복잡한 탐색 과제를 극복하고, 보안과 통신 성능 간의 균형을 지능적으로 맞추는 강력하고 적응적인 정책을 학습한다. 실험 결과, 평균 92.8%의 공격자 탐지율과 13dB 이상의 평균 사용자 SINR을 달성함을 보여준다.