Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les LLM ont un cœur de pierre : démystifier la capacité de réflexion douce des grands modèles de raisonnement

Created by
  • Haebom

Auteur

Chunhung Wu, Jinliang Lu, Zixuan Ren, Gangqiang Hu, Zhi Wu, Dai Dai, Hua Wu

Contour

Cet article analyse les capacités de « pensée douce » des modèles de langage à grande échelle (MLL) à l'aide de diverses techniques d'exploration. Contrairement aux attentes conventionnelles concernant la pensée douce, nous constatons que les LLM s'appuient principalement sur les composants les plus influents des jetons doux, ce qui limite leur exploration du chemin d'inférence. Ce phénomène s'apparente à un décodage glouton, qui masque l'avantage de transmettre davantage d'informations via les jetons doux. Pour résoudre ce problème, nous introduisons de l'aléatoire grâce à des stratégies d'échantillonnage telles que le rééchantillonnage de Dirichlet et la technique de Gumbel-Softmax, et vérifions expérimentalement leur efficacité sur huit bancs d'essai d'inférence. Nous confirmons que la technique de Gumbel-Softmax atteint les meilleures performances en offrant un caractère aléatoire approprié et une fluidité contrôlée.

Takeaways, Limitations

Takeaways: Nous démontrons que le raisonnement souple utilisant des jetons souples peut se réduire à un simple décodage glouton, et suggérons que les performances peuvent être améliorées en introduisant du caractère aléatoire dans les stratégies d'échantillonnage (notamment Gumbel-Softmax). Cela approfondit notre compréhension du processus d'inférence LLM et suggère des moyens d'utiliser efficacement le raisonnement souple.
Limitations: L'efficacité de la stratégie d'échantillonnage proposée pourrait être limitée à un point de référence spécifique, et sa généralisation à d'autres types de tâches LLM ou d'inférence nécessite des recherches supplémentaires. De plus, l'introduction d'aléatoire n'améliore pas toujours les performances, et déterminer le niveau optimal d'aléatoire reste un défi.
👍