Este artículo aborda los desafíos de evaluar métodos de atribución de características en IA explicable (XAI). Si bien los investigadores suelen basarse en métricas basadas en perturbaciones en ausencia de datos de verdad fundamental, estudios recientes han demostrado que dichas métricas pueden tener un rendimiento diferente entre las clases predichas dentro del mismo conjunto de datos. Este "efecto de evaluación dependiente de la clase" plantea preguntas sobre si el análisis de perturbaciones mide de forma fiable la calidad de la atribución y tiene implicaciones directas para el desarrollo y la fiabilidad de la evaluación de los métodos XAI. En este artículo, investigamos bajo qué condiciones se producen dichos efectos dependientes de la clase mediante experimentos controlados que utilizan datos sintéticos de series temporales con ubicaciones conocidas de características de verdad fundamental. Tras variar sistemáticamente los tipos de características y los contrastes de clase en una tarea de clasificación binaria, comparamos las puntuaciones de degradación basadas en perturbaciones con métricas de recuperación de precisión basadas en verdad fundamental utilizando múltiples métodos de atribución. Los resultados muestran que los efectos dependientes de la clase están presentes en ambos métodos de evaluación, incluso en escenarios simples con características localizadas temporalmente, debido a cambios fundamentales en la amplitud o la extensión temporal de las características. Es más, las métricas basadas en perturbaciones y las métricas de verdad fundamental suelen producir estimaciones contradictorias de la calidad de la atribución entre clases, y la correlación entre los métodos de evaluación es débil. Estos resultados sugieren que los investigadores deben interpretar las métricas basadas en perturbaciones con cautela, ya que podrían no siempre corresponder con la atribución, identificando correctamente las características distintivas. Al demostrar esta discrepancia, este estudio señala la necesidad de reconsiderar lo que miden realmente las evaluaciones de atribución y de desarrollar métodos de evaluación más rigurosos que capturen múltiples dimensiones de la calidad de la atribución.