본 논문은 설명 가능한 AI(XAI)에서 특징 귀속 방법 평가의 어려움을 다룹니다. 연구자들은 일반적으로 기준 진실이 없을 때 perturbation-based metrics에 의존하지만, 최근 연구에 따르면 이러한 평가 지표는 동일한 데이터셋 내에서 예측된 클래스 간에 다른 성능을 보일 수 있음이 밝혀졌습니다. 이러한 "클래스 종속적 평가 효과"는 perturbation 분석이 귀속 품질을 신뢰할 수 있게 측정하는지에 대한 의문을 제기하며, XAI 방법 개발과 평가 신뢰성에 직접적인 영향을 미칩니다. 본 연구는 기준 진실 특징 위치를 아는 합성 시계열 데이터를 사용한 통제된 실험을 통해 이러한 클래스 종속적 효과가 어떤 조건에서 발생하는지 조사합니다. 이진 분류 작업에서 특징 유형과 클래스 대비를 체계적으로 변경한 후, 여러 귀속 방법을 사용하여 perturbation-based degradation scores와 기준 진실 기반 정밀도-재현율 지표를 비교합니다. 실험 결과, 시간적으로 국지화된 특징을 가진 간단한 시나리오에서도 특징 진폭이나 시간적 범위의 기본적인 변화에 의해 두 평가 방법 모두에서 클래스 종속적 효과가 나타나는 것을 보여줍니다. 가장 중요한 것은 perturbation-based 지표와 기준 진실 지표가 클래스 간 귀속 품질에 대한 상반되는 평가를 자주 생성하며, 평가 방법 간의 상관관계가 약하다는 것입니다. 이러한 결과는 연구자들이 perturbation-based 지표를 신중하게 해석해야 함을 시사하며, 이는 항상 귀속이 구분 특징을 올바르게 식별하는지 여부와 일치하지 않을 수 있기 때문입니다. 이러한 불일치를 보여줌으로써, 본 연구는 귀속 평가가 실제로 무엇을 측정하는지 재고하고 귀속 품질의 여러 차원을 포착하는 보다 엄격한 평가 방법을 개발해야 함을 지적합니다.