Este artículo aborda métricas de concordancia como el kappa de Cohen y la correlación intraclase. Estas métricas se utilizan en diversos campos (p. ej., medicina, inteligencia artificial, etc.), desde la evaluación de la efectividad de tratamientos médicos y ensayos clínicos hasta la cuantificación de la aproximación debida al desgaste del clasificador. Este artículo presenta un método para comparar la consistencia de clasificadores basados en métricas de concordancia con un clasificador de referencia y señala las limitaciones de evaluar un enfoque como bueno o malo simplemente basándose en métricas de concordancia. Algunas medidas existentes del kappa de Cohen presentan el problema de ser simples y tener límites arbitrarios. Por lo tanto, este artículo propone un enfoque general para evaluar la significancia de los valores de concordancia entre dos clasificadores e introduce dos índices de significancia que tratan con conjuntos de datos finitos y distribuciones de probabilidad de clasificación, respectivamente. Además, proponemos un algoritmo para evaluar eficientemente estos índices.