본 논문은 기존 이미지 분류 설명 방법들의 신뢰성 및 타당성 문제를 해결하기 위해, CNN 기반 분류기의 훈련 과정이나 예측 성능에 영향을 주지 않으면서 사후적으로 자연어 설명을 생성하는 방법을 제안합니다. 영향력 있는 뉴런과 그에 해당하는 활성화 맵을 분석하여 분류기의 의사결정 과정을 구조화된 의미 표현으로 기술하고, 이를 언어 모델을 통해 텍스트로 변환합니다. 이러한 파이프라인 방식을 통해 생성된 설명은 신경망 구조에 근거하여 정확한 통찰력을 제공하면서도 비전문가도 이해할 수 있도록 합니다. 실험 결과, 제안된 방법으로 생성된 자연어 설명이 기존 방법보다 신뢰성 및 타당성이 훨씬 높음을 보여주며, 특히 신경망 구조에 대한 사용자 개입(뉴런 마스킹)의 효과가 기존 방법보다 세 배 더 높음을 확인했습니다.