본 논문은 심층 신경망 분류기(DNN)의 결정을 해석하여 신뢰성과 투명성을 높이는 새로운 프레임워크를 제시합니다. 기존의 attribution 기법과 달리, 잘못 분류된 결정을 해석하는 데 있어 인간의 개입을 최소화하기 위해 counterfactual example을 활용합니다. 이는 prober라는 요소를 통해 분류기의 결정 정확성(hit/miss)을 이진 코드로 평가하고, 이를 바탕으로 counterfactual example을 생성합니다. 이를 통해 MNIST 데이터셋에서 레이블 정보 없이 분류기의 취약점을 효과적으로 식별하는 것을 실험적으로 검증합니다.