Cet article analyse les capacités de « pensée douce » des modèles de langage à grande échelle (MLL) à l'aide de diverses techniques d'exploration. Contrairement aux attentes conventionnelles concernant la pensée douce, nous constatons que les LLM s'appuient principalement sur les composants les plus influents des jetons doux, ce qui limite leur exploration du chemin d'inférence. Ce phénomène s'apparente à un décodage glouton, qui masque l'avantage de transmettre davantage d'informations via les jetons doux. Pour résoudre ce problème, nous introduisons de l'aléatoire grâce à des stratégies d'échantillonnage telles que le rééchantillonnage de Dirichlet et la technique de Gumbel-Softmax, et vérifions expérimentalement leur efficacité sur huit bancs d'essai d'inférence. Nous confirmons que la technique de Gumbel-Softmax atteint les meilleures performances en offrant un caractère aléatoire approprié et une fluidité contrôlée.