Cet article soutient que la robustesse visuelle humaine fait référence à la capacité à traiter efficacement l'information visuelle dans des environnements visuels complexes, et que les réseaux neuronaux profonds (DNN) affichent d'excellentes performances dans de nombreuses tâches visuelles, mais sont vulnérables aux petites modifications de l'image. S'appuyant sur des théories antérieures selon lesquelles la robustesse visuelle humaine est due à l'augmentation progressive de la résistance à la déformation des objets dans l'espace représentationnel évoluant le long de la voie visuelle dorsale (VVS), cette étude entraîne les DNN à effectuer des tâches visuelles tout en alignant leurs représentations sur les réponses neuronales humaines dans des régions VVS continues. En conséquence, nous montrons une amélioration hiérarchique dans le fait que l'alignement avec les régions VVS d'ordre supérieur améliore encore la robustesse des DNN. De plus, nous vérifions l'hypothèse selon laquelle la robustesse humaine est due à la structure géométrique unique de la variété de catégories neuronales du VVS, et montrons que des propriétés de variété plus souhaitables (portée plus petite et meilleure séparabilité linéaire) sont présentes dans le VVS humain, et que ces propriétés sont héritées par les DNN alignés neuronalement, ce qui prédit une robustesse améliorée. Enfin, nous démontrons que le guidage uniquement sur les variétés neuronales via le guidage des variétés suffit à reproduire qualitativement l'amélioration de la robustesse hiérarchique. En conclusion, cette étude souligne que l'évolution de l'espace de représentation à travers les VVS, en particulier la formation de variétés de catégories plus linéairement séparables, joue un rôle clé dans l'obtention d'un raisonnement visuel robuste, suggérant qu'il peut être utilisé pour développer des systèmes d'IA plus robustes.