비정상 환경에서의 강화 학습은 역동성의 갑작스럽고 예측 불가능한 변화로 인해 기존 알고리즘이 수렴하지 못하는 어려움을 겪습니다. 하지만 많은 실제 사례에서 비정상성은 알고리즘 개발과 이론적 분석을 용이하게 하는 구조를 가지고 있습니다. 본 논문에서는 환경이 기저 마르코프 체인을 기반으로 시간에 따라 전환되는 전환 비정상 마르코프 의사결정 과정(SNS-MDP)이라는 구조를 제시합니다. 고정된 정책 하에서 SNS-MDP의 가치 함수는 마르코프 체인의 통계적 특성에 의해 결정되는 폐쇄형 해를 가지며, 고유한 비정상성에도 불구하고 시간차 학습(TD) 방법은 여전히 정확한 가치 함수로 수렴합니다. 또한 정책 개선을 수행할 수 있으며, 정책 반복이 최적 정책으로 수렴함을 보여줍니다. 더 나아가 Q-학습이 최적 Q-함수로 수렴하므로 최적 정책을 생성합니다. SNS-MDP의 실용적인 이점을 보여주기 위해 채널 잡음이 마르코프 패턴을 따르는 통신 네트워크의 예시를 제시하여 이 프레임워크가 복잡하고 시간에 따라 변하는 상황에서 의사 결정을 효과적으로 안내할 수 있음을 보여줍니다.