본 논문은 Convolutional Neural Networks (CNNs)의 의사결정 과정을 해석하기 위해 기존의 Grad-CAM의 한계를 극복하는 새로운 방법인 Winsor-CAM을 제안합니다. Grad-CAM은 최종 합성곱층에만 집중하거나 층들을 단순히 평균하는 방식으로 중요한 의미론적 단서를 흐리거나 무관한 노이즈를 증폭할 수 있습니다. Winsor-CAM은 모든 합성곱층의 정보를 취합하여 강건하고 일관된 saliency map을 생성하며, Winsorization 기법을 통해 노이즈 또는 극단적인 attribution 값의 영향을 완화합니다. 사용자 제어 가능한 임계값을 통해 의미 수준 조정이 가능하여 다양한 표현 계층에 걸쳐 모델 동작을 유연하게 탐색할 수 있습니다. ResNet50, DenseNet121, VGG16, InceptionV3와 같은 표준 아키텍처와 PASCAL VOC 2012 데이터셋을 사용한 평가 결과, Winsor-CAM은 Grad-CAM 및 단순 층 평균 기준보다 더 해석 가능한 히트맵을 생성하고, IoU 및 질량 중심 정렬과 같은 지역화 지표에서 우수한 성능을 달성하는 것으로 나타났습니다.