강화 학습은 여러 과제에서 뛰어난 성능을 보였지만, 환경의 비정상성으로 인해 학습 효율성이 저하되는 문제점이 있습니다. 본 논문에서는 강화 학습 알고리즘의 정책 네트워크에 통합하여 비정상성을 효과적으로 완화하는 Clustering Orthogonal Weight Modified (COWM) 레이어를 제안합니다. COWM 레이어는 클러스터링 기술과 투영 행렬을 사용하여 학습 과정을 안정화시키고, 학습 속도 향상 및 기울기 간섭 감소를 통해 전반적인 학습 효율성을 높입니다. 시각 기반 및 상태 기반 DMControl 벤치마크에서 기존 방법보다 각각 9% 및 12.6%의 성능 향상을 보였으며, 다양한 알고리즘과 작업에 걸쳐 견고성과 일반성을 입증했습니다.