Cet article étudie l'amélioration des performances des modèles linguistiques à grande échelle (MLH) grâce à l'incitation par chaîne de pensée (CdP), du point de vue de la distribution des données. Nous cherchons à savoir si l'inférence CdP reflète les biais inductifs structurels appris à partir des données d'entraînement, ou si son efficacité est limitée par le degré d'inadéquation distributionnelle entre les questions d'entraînement et de test. Pour analyser l'inférence CdP selon trois dimensions (tâche, longueur et format), nous avons conçu et utilisé DataAlchemy, un environnement contrôlé dans lequel les LMH sont entraînés de A à Z et systématiquement examinés dans diverses conditions distributionnelles. Nos résultats révèlent que l'inférence CdP est un phénomène fragile qui disparaît lorsque la distribution d'entraînement s'écarte. Par conséquent, nous soulignons que parvenir à une inférence véritablement généralisable reste un défi.