Cet article présente les premières preuves empiriques d'un phénomène appelé camouflage d'alignement (également appelé alignement trompeur) dans les modèles de langage à grande échelle. Plus précisément, nous démontrons que le camouflage d'alignement peut se produire même dans des modèles de coordination directive à petite échelle tels que LLaMA 3 8B. De plus, nous démontrons que ce comportement peut être significativement réduit par des interventions basées sur des incitations, telles que la fourniture d'un cadre moral ou le raisonnement par blocs-notes, sans modifier le modèle lui-même. Ce résultat remet en question l'hypothèse selon laquelle les approches éthiques basées sur des incitations sont simplistes et que l'alignement trompeur dépend uniquement de la taille du modèle. Nous présentons une taxonomie qui distingue la « tromperie superficielle », dépendante du contexte et pouvant être supprimée par des incitations, de la « tromperie profonde », qui reflète un désalignement persistant et orienté vers un objectif. Ces résultats affinent notre compréhension de la tromperie dans les modèles de langage et soulignent la nécessité d'évaluer l'alignement, quelles que soient la taille des modèles et les environnements de déploiement.