Cet article aborde la question de la responsabilité dans les systèmes d'IA modernes, développés en plusieurs étapes (pré-entraînement, ajustement et adaptation/alignement). Nous abordons le « problème d'attribution », qui mesure la part de responsabilité de chaque étape dans la réussite ou l'échec d'un modèle déployé, et proposons un cadre général pour répondre à des questions contrefactuelles sur l'évolution du comportement du modèle si une étape particulière n'avait pas été mise à jour. Dans ce cadre, nous présentons un estimateur qui quantifie efficacement l'efficacité de chaque étape en prenant en compte des aspects clés de la dynamique d'optimisation du modèle, tels que les programmes d'apprentissage, l'impulsion et la décroissance du poids, ainsi que les données, sans nécessiter de réentraînement du modèle. Nous démontrons que nous quantifions avec succès la responsabilité de chaque étape dans les tâches de classification d'images et de détection de toxicité textuelle, et que nous identifions et supprimons les corrélations erronées à partir des résultats d'attribution. Cette approche fournit un outil pratique pour l'analyse de modèles et représente une étape importante vers le développement d'une IA plus responsable.