Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Diagnostic de la mémorisation dans le raisonnement en chaîne de pensée, un jeton à la fois

Created by
  • Haebom

Auteur

Huihan Li, You Chen, Siyuan Wang, Yixin He, Ninareh Mehrabi, Rahul Gupta, Xiang Ren

Contour

Cet article aborde le phénomène selon lequel les modèles de langage à grande échelle (MLH) obtiennent de bons résultats aux tests d'inférence, mais échouent souvent même lorsque les données d'entrée sont légèrement modifiées. Plus précisément, nous soulignons que des schémas de mémoire défaillants dans l'inférence par chaîne de pensée (CdP) peuvent entraîner des erreurs intermédiaires, conduisant à des réponses finales incorrectes. Pour remédier à ce problème, nous présentons STIM, un nouveau cadre. STIM se concentre sur l'identification de la source de mémoire en attribuant à chaque jeton du processus d'inférence l'une des différentes sources de mémoire (locale, moyenne ou longue portée) en fonction des cooccurrences statistiques dans le corpus de pré-apprentissage. L'analyse au niveau du jeton, sur diverses tâches et configurations distributionnelles, révèle que les modèles s'appuient davantage sur la mémoire dans les tâches complexes ou à longue traîne, la mémoire locale étant la principale source d'erreurs (jusqu'à 67 % de jetons incorrects). Nous démontrons également que les scores de mémoire de STIM peuvent être utilisés pour prédire les jetons incorrects dans les étapes d'inférence erronées. STIM est un outil puissant pour diagnostiquer et améliorer l’inférence des modèles et peut être généralisé à d’autres tâches de génération structurées étape par étape.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau cadre (STIM) pour analyser les causes des erreurs d'inférence dans LLM au niveau du jeton.
Lorsque le LLM est complexe ou rare, il s’appuie davantage sur la mémoire, révélant que la mémoire locale est la principale source d’erreurs.
En utilisant STIM, les erreurs dans les étapes d’inférence incorrectes peuvent être prédites.
ÉGalement applicable à d'autres tâches de création structurées étape par étape.
Limitations:
L’évaluation des performances du STIM peut être limitée à des repères et à des ensembles de données spécifiques.
Des recherches supplémentaires pourraient être nécessaires sur la définition et la mesure de la mémoire.
Il est possible que tous les types d’erreurs d’inférence ne puissent pas être parfaitement capturés.
👍