Este artículo demuestra que las redes neuronales de propagación hacia adelante que utilizan la función de activación ReLU pueden generalizarse a datos bien definidos y de baja complejidad. Dados datos iid generados con un lenguaje de programación simple, una red neuronal de propagación hacia adelante de longitud mínima de habilidad (MDL) que interpola los datos generaliza con alta probabilidad. El artículo define este lenguaje de programación simple y el concepto de longitud de habilidad para dicha red neuronal. Proporciona varios ejemplos de tareas computacionales básicas, como la detección de primalidad. Para la detección de primalidad, el teorema establece lo siguiente: Considérese una muestra iid de n números extraídos uniformemente al azar del 1 al N. Para cada número xi, si xi es primo, yi = 1; de lo contrario, yi = 0. Entonces, una red MDL interpoladora responde correctamente si un número recién extraído del 1 al N es primo o no con una probabilidad de error de 1-O(ln N)/n). Tenga en cuenta que la red no está diseñada para detectar primos; el aprendizaje de habilidad mínima descubre redes que sí lo hacen. También se analizan extensiones a datos ruidosos, lo que sugiere que los interpoladores de redes neuronales MDL pueden presentar un sobreajuste leve.