El notable rendimiento de las redes neuronales profundas (DNN) sobreparametrizadas surge de la interacción entre la arquitectura de la red, el algoritmo de entrenamiento y la estructura de los datos. Este artículo desenreda estos tres componentes aplicando una perspectiva bayesiana al aprendizaje supervisado. Las probabilidades a priori de las funciones están determinadas por la red y varían al explotar las transiciones entre regímenes ordinales y caóticos. Para la clasificación de funciones booleanas, la verosimilitud se aproxima utilizando el espectro de error de la función en los datos. Al combinarse con las probabilidades a priori, esto predice con precisión las probabilidades a posteriori medidas para las DNN entrenadas con descenso de gradiente estocástico. Este análisis revela que el sesgo inductivo inherente, similar a la navaja de Occam, hacia los datos estructurados y las funciones simples (de Kolmogorov) (suficientemente fuerte como para contrarrestar el crecimiento exponencial del número de funciones con complejidad) es un factor crítico para el éxito de las DNN.