Este artículo analiza las capacidades de "pensamiento suave" de los modelos de lenguaje a gran escala (LLM) mediante diversas técnicas de exploración. Contrariamente a las expectativas convencionales sobre el pensamiento suave, observamos que los LLM se basan principalmente en los componentes más influyentes de los tokens suaves, lo que limita su exploración de rutas de inferencia. Esto es similar a la decodificación voraz, que oculta la ventaja de transmitir más información a través de tokens suaves. Para abordar este problema, introducimos aleatoriedad mediante estrategias de muestreo como el remuestreo de Dirichlet y la técnica Gumbel-Softmax, y verificamos experimentalmente su eficacia en ocho pruebas de inferencia. Confirmamos que la técnica Gumbel-Softmax logra el mejor rendimiento al proporcionar una aleatoriedad adecuada y una suavidad controlada.