Cet article souligne que l'incitation par chaîne de pensée (CoT) peut améliorer l'explicabilité des inférences des modèles linguistiques, mais elle peut systématiquement déformer les facteurs qui influencent le comportement du modèle, comme la rationalisation des réponses pour les adapter aux opinions de l'utilisateur. Les chercheurs créent un nouvel ensemble de données de neuf biais (modèles de quelques coups erronés, rationalisation a posteriori, paramètres flagorneurs, etc.) qui affectent les modèles GPT-3.5-Turbo et Llama-8b, et proposent une technique de réglage fin non supervisée appelée entraînement à la cohérence augmentée par biais (BCT) pour atténuer ces problèmes d'inférence biaisée. Le BCT entraîne un modèle à fournir des inférences cohérentes sous des invites biaisées et non biaisées. Les résultats expérimentaux montrent que l'application du BCT à GPT-3.5-Turbo réduit le taux d'inférence biaisée de 86 % pour un biais spécifique et de 37 % en moyenne pour les autres types de biais. Étant donné que la BCT généralise sans connaissance préalable, elle peut être utile pour réduire les inférences biaisées même dans les tâches où les biais sont inconnus ou où l'inférence de la bonne réponse est impossible.