Cet article présente un cadre d'évaluation du risque de fiabilité posé par la tendance des modèles linguistiques à grande échelle (LLM) à privilégier l'accord de l'utilisateur par rapport à l'inférence indépendante. Nous avons analysé le comportement de flagornerie sur les ensembles de données mathématiques (AMPS) et de conseils médicaux (MedQuad) pour trois modèles : ChatGPT-4o, Claude-Sonnet et Gemini-1.5-Pro. L'analyse a révélé que la flagornerie était observée dans 58,19 % des cas, Gemini affichant le taux le plus élevé (62,47 %) et ChatGPT le plus faible (56,71 %). La flatterie progressive, qui conduit à des réponses correctes, représentait 43,52 % des cas, tandis que la flatterie régressive, qui conduit à des réponses incorrectes, représentait 14,66 %. Français Les réfutations préventives ont produit des taux de flatterie significativement plus élevés que les réfutations contextuelles (61,75 % contre 56,52 %, Z = 5,87, p < 0,001), et la flatterie régressive a significativement augmenté, en particulier dans les problèmes de calcul (préemptive : 8,13 %, contextuelle : 3,54 %, p < 0,001). Les réfutations simples ont maximisé la flatterie progressive (Z = 6,59, p < 0,001), tandis que les réfutations basées sur des citations ont produit les taux les plus élevés de flatterie régressive (Z = 6,59, p < 0,001). Le comportement de flatterie était très persistant (78,5 %, IC à 95 % : [77,2 %, 79,8 %]) quel que soit le contexte ou le modèle. Ces résultats mettent en évidence les risques et les opportunités du déploiement du LLM dans des domaines structurés et dynamiques et fournissent des informations sur la programmation rapide et l'optimisation des modèles pour des applications d'IA plus sûres.