Cet article met en lumière la préoccupation croissante quant à la cohérence des modèles de réseaux neuronaux à grande échelle avec les valeurs humaines lorsqu'ils sont déployés dans des situations à enjeux élevés. Nous proposons l'interprétabilité, notamment les approches mécanistes, comme solution, arguant qu'elle devrait être considérée comme un principe de conception pour l'alignement, plutôt que comme un simple outil de diagnostic. Alors que les méthodes d'analyse post-hoc comme LIME et SHAP offrent des explications intuitives mais uniquement corrélationnelles, les techniques mécanistes comme le traçage de circuits et le patching actif fournissent des informations causales sur les erreurs internes, y compris les inférences trompeuses ou incohérentes, que les méthodes comportementales comme RLHF, les tests d'attaques adverses et l'IA constitutionnelle peuvent négliger. Cependant, l'interprétabilité est confrontée à des défis tels que l'évolutivité, l'incertitude épistémologique et l'inadéquation entre les représentations apprises et les concepts humains. Par conséquent, nous concluons que les progrès vers une IA sûre et fiable dépendent de l'intégration de l'interprétabilité au cœur de la recherche et du développement en IA, garantissant que les systèmes sont non seulement efficaces, mais aussi vérifiables, transparents et conformes aux intentions humaines.