Cet article souligne que, si les réseaux de neurones profonds ont fait leurs preuves en tant que modèles de représentation neuronale pour le comportement humain et les tâches visuelles, leur apprentissage est fondamentalement différent de celui de l'apprentissage humain et leur capacité de généralisation est limitée. Une divergence majeure réside dans l'organisation hiérarchique des connaissances conceptuelles humaines, allant du niveau le plus fin au niveau macroscopique, tandis que les représentations des modèles ne parviennent pas à capturer avec précision tous ces niveaux d'abstraction. Pour remédier à ce problème, nous entraînons un modèle d'enseignant à imiter le jugement humain, puis affinons les représentations d'un modèle pré-entraîné, basé sur la vision, afin de transférer une structure alignée sur l'humain. Le résultat est un modèle aligné sur l'humain qui approxime plus précisément le comportement humain et l'incertitude dans diverses tâches de similarité et améliore la généralisation et la robustesse distributionnelle dans diverses tâches d'apprentissage automatique. En conclusion, nous démontrons que l'ajout de connaissances humaines aux réseaux de neurones produit des représentations optimales qui améliorent à la fois le jugement cognitif humain et l'application pratique, conduisant à des systèmes d'intelligence artificielle plus robustes, interprétables et alignés sur l'humain.