Este artículo destaca que, si bien las redes neuronales profundas han demostrado ser exitosas como modelos de representación neuronal para el comportamiento humano y las tareas visuales, su aprendizaje es fundamentalmente diferente al humano y no logran capacidades de generalización robustas. Una discrepancia clave radica en que el conocimiento conceptual humano está organizado jerárquicamente, desde el granular fino hasta el macroscópico, mientras que las representaciones de los modelos no logran capturar con precisión todos estos niveles de abstracción. Para abordar esto, entrenamos un modelo docente para imitar el juicio humano y, posteriormente, afinamos las representaciones de un modelo de visión de vanguardia, previamente entrenado, para transferir una estructura alineada con el ser humano. El resultado es un modelo alineado con el ser humano que se aproxima con mayor precisión al comportamiento humano y a la incertidumbre en diversas tareas de similitud y mejora la generalización y la robustez distributiva en diversas tareas de aprendizaje automático. En conclusión, demostramos que la incorporación de conocimiento humano a las redes neuronales produce representaciones óptimas que mejoran tanto el juicio cognitivo humano como la aplicación práctica, lo que conduce a sistemas de inteligencia artificial más robustos, interpretables y alineados con el ser humano.