Este artículo presenta un método automatizado confiable para detectar defectos en superficies de acero. Para abordar la degradación de la confiabilidad causada por la incertidumbre de la anotación de datos y los problemas de sobreajuste de los métodos existentes basados en CNN, evaluamos el rendimiento del modelo de detección utilizando datos de validación independientes e idénticamente distribuidos (iid). Definimos una función de pérdida para cada muestra de validación para cuantificar la tasa de error de detección (compensación de recuperación y tasa de falsos positivos, etc.), y derivamos un umbral estadísticamente riguroso basado en un nivel de riesgo definido por el usuario para identificar píxeles defectuosos de alta probabilidad. Esto garantiza que la tasa de error esperada en el conjunto de prueba esté estrictamente dentro del nivel de riesgo predefinido. Además, presentamos una métrica estadísticamente rigurosa para evaluar la incertidumbre del modelo de detección al identificar la correlación negativa entre el tamaño promedio del conjunto de predicción y el nivel de riesgo, y mostramos que la tasa de error esperada del conjunto de prueba se controla efectivamente bajo varias razones de división de validación-prueba.