본 논문은 기계적 해석 가능성을 위한 일반적인 접근 방식인 인과적 개입이 모델 표현을 어떻게 변화시키는지, 특히 이러한 개입이 모델의 자연 상태에서 벗어난 표현을 생성하는지 여부를 조사합니다. 저자는 이론적 및 실증적으로 인과적 개입 기법이 종종 내부 표현을 모델의 자연 분포에서 벗어나게 한다는 것을 보여줍니다. 또한, "무해한" 발산과 "해로운" 발산의 두 가지 유형의 발산을 분석하고, 해로운 경우를 완화하기 위해 Counterfactual Latent (CL) 손실을 적용하여 인과적 개입의 표현이 자연 분포에 더 가깝게 유지되도록 합니다. 이를 통해 더욱 신뢰할 수 있는 해석 가능성 방법을 제시합니다.