본 논문은 이미지 분류 모델의 예측에 대한 불확실성(낮은 신뢰도)의 원인을 설명하는 방법을 탐구합니다. 기존 연구들이 주로 모델의 결정 과정을 설명하는 데 초점을 맞춘 것과 달리, 본 논문은 모델의 낮은 신뢰도에 대한 다양한 원인을 파악하고 설명하는 데 목표를 둡니다. 이를 위해 저신뢰도 예측에 대한 설명을 제공하는 counterfactual 이미지 생성에 초점을 맞추고, Image Gradient Descent (IGD), Feature Gradient Descent (FGD), Autoencoder Reconstruction (Reco), Latent Gradient Descent (LGD), Latent Nearest Neighbors (LNN) 등 다섯 가지 새로운 방법을 제안합니다. 두 가지 데이터셋을 사용하여 다양한 원인에 대한 counterfactual 이미지 생성 성능을 평가한 결과, Reco, LGD, LNN 세 가지 방법이 가장 효과적인 것으로 나타났습니다. 또한, 사전 훈련된 다중 모달 대규모 언어 모델(MLLM)을 이용하여 이 세 가지 방법으로 생성된 counterfactual 이미지를 통해 낮은 모델 신뢰도의 원인에 대한 언어적 설명을 생성하는 실험을 진행하고, counterfactual 이미지가 MLLM의 정확한 설명 생성 능력을 향상시킨다는 것을 확인했습니다.