본 논문은 사후 설명 방법들이 예측을 입력 특징에 귀속시키는 과정에서, 입력과 출력 간의 자연스러운 관계를 뒤집는 "설명의 역전(explanatory inversion)" 현상을 탐구합니다. 이를 정량화하기 위해, 설명이 출력에 얼마나 의존하고 진정한 입력-출력 관계에서 얼마나 벗어나는지를 측정하는 "역전 정량화(Inversion Quantification, IQ)" 프레임워크를 제안합니다. 합성 데이터셋을 사용한 실험을 통해 LIME과 SHAP 등 널리 사용되는 방법들이 특히 가짜 상관관계가 존재하는 경우, 표 형식, 이미지, 텍스트 도메인에서 설명 역전 현상에 취약함을 보여줍니다. 마지막으로, 순방향 섭동 검사를 통합한 모델 독립적인 사후 설명 방법 개선 기법인 "Poke 방식으로 재현(Reproduce-by-Poking, RBP)"을 제안하고, IQ 프레임워크 하에서 RBP가 설명 역전을 완화한다는 것을 이론적으로 그리고 실험적으로 증명합니다. 예를 들어, 합성 데이터에서 RBP는 기존 사후 설명 방법과 도메인에서 평균 1.8%의 역전을 감소시킵니다.