Cet article aborde un défi majeur de l'apprentissage profond : comprendre comment les réseaux de neurones apprennent les représentations. Une approche clé est l'hypothèse des caractéristiques neuronales (NFA) (Radhakrishnan et al. 2024), une conjecture sur le mécanisme par lequel se produit l'apprentissage des caractéristiques. Bien que validées empiriquement, les NFA manquent de fondement théorique, ce qui rend difficile de savoir quand elles pourraient échouer et comment les améliorer. Cet article utilise une approche des premiers principes pour comprendre pourquoi cette observation est vraie et quand elle ne l'est pas. En utilisant des critères d'optimisation du premier ordre, nous dérivons Feature-At-Convergence (FACT), une alternative à la NFA. FACT (a) permet une meilleure concordance avec les caractéristiques apprises à la convergence, (b) explique pourquoi les NFA sont valables dans la plupart des contextes, et (c) capture les phénomènes essentiels d'apprentissage des caractéristiques dans les réseaux de neurones, tels que le comportement de groking de l'arithmétique modulaire et les transitions de phase dans l'apprentissage à parité parcimonieuse, similaire aux NFA. Par conséquent, les résultats de cette étude intègrent l’analyse d’optimisation théorique du premier ordre des réseaux neuronaux avec la littérature NFA empiriquement axée, et fournissent une alternative fondée sur des principes qui est vérifiable et empiriquement valide à la convergence.