Cet article souligne que les modèles linguistiques à grande échelle s'alignent de plus en plus sur les préférences humaines grâce à l'apprentissage renforcé par le feedback humain (RLHF) et à des méthodes connexes telles que l'optimisation directe des préférences (DPO), l'IA constitutionnelle et le RLAIF. Cependant, ils présentent des schémas d'échec récurrents, notamment le piratage des récompenses, la flatterie, la dérive des annotateurs et les erreurs de généralisation. Nous proposons le concept d'« écart d'alignement » comme perspective intégrative pour comprendre ces échecs et, en utilisant la formulation de l'inclinaison KL, nous expliquons pourquoi l'écart entre les récompenses indirectes et les véritables intentions humaines est amplifié par la pression d'optimisation. De plus, nous cataloguons ces échecs comme une loi de Murphy pour l'alignement de l'IA et proposons le « trilemme d'alignement » pour illustrer les compromis entre intensité d'optimisation, capture de valeur et généralisation. Nous étayons cette hypothèse par des études empiriques à petite échelle et proposons le cadre MAPS (spécification d'erreur, annotation, pression et variation) comme levier de conception pratique. Plutôt que d’affirmer l’impossibilité de l’alignement, cet article reformule le débat sur l’alignement autour des limitations structurelles et des compromis, offrant une perspective qui fournit des orientations claires pour les conceptions futures.