본 논문은 복잡한 산업 시스템 모니터링을 위한 이상 탐지 문제를 해결하기 위해 Variational Autoencoder (VAE), LSTM 기반 Deep Q-Network (DQN), 동적 보상 셰이핑, 액티브 러닝 모듈을 결합한 딥 강화 학습 프레임워크를 제시한다. 주요 기여는 Multivariate Time Series Anomaly Detection (DRSMT)을 위한 Dynamic Reward Scaling 구현으로, 각 구성 요소가 탐지 프로세스를 향상시키는 방법을 보여준다. VAE는 콤팩트한 잠재 표현을 캡처하고 노이즈를 줄이며, DQN은 적응적이고 순차적인 이상 분류를 가능하게 한다. 동적 보상 셰이핑은 재구성 및 분류 신호의 중요성을 조정하여 학습 중 탐색과 활용의 균형을 맞춘다. 또한, 액티브 러닝은 가장 불확실한 샘플을 식별하여 광범위한 수동 감독의 필요성을 줄인다. Server Machine Dataset (SMD) 및 Water Distribution Testbed (WADI) 벤치마크 실험 결과, 제안된 방법이 F1-score 및 AU-PR에서 기존 baseline을 능가함을 입증했다.