Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Préfixe de jeton : une approche sans formation pour obtenir de meilleures incorporations de phrases à partir des LLM

Created by
  • Haebom

Auteur

Yuchen Fu, Zifeng Cheng, Zhiwei Jiang, Zhonghui Wang, Yafeng Yin, Zhengliang Li, Qing Gu

Contour

Dans cet article, nous proposons une nouvelle technique d'extraction d'images de phrases à partir de modèles de langage à grande échelle (MLL), le préfixage de phrases (TP). Les méthodes existantes incitent les MLL à encoder les informations de phrase dans les images des derniers MLL par ingénierie des prompts. Cependant, cela conduit à un codage biaisé et à des effets en cascade dus à l'attention causale, ce qui empêche les premiers MLL de se référer aux MLL ultérieurs. Le TP ajoute les images de phrases décodées de chaque couche aux phrases d'entrée de la couche suivante, afin que les premiers MLL puissent prendre en compte l'intégralité des informations de la phrase. Il s'agit d'une technique prête à l'emploi, sans formation, qui s'intègre parfaitement à diverses méthodes d'images de phrases basées sur des prompts et à des MLL autorégressifs. Grâce à des expériences approfondies sur diverses tâches de similarité sémantique de texte (STS) et de sous-classification, nous démontrons que le TP améliore significativement les performances des méthodes existantes tout en augmentant à peine le coût d'inférence.

Takeaways, Limitations

Takeaways:
Une nouvelle technique TP est proposée pour améliorer les performances de l'extraction d'intégration de phrases basée sur LLM.
Facile à intégrer aux méthodes basées sur des invites existantes de manière plug-and-play.
Aucun apprentissage requis, pratiquement aucun coût supplémentaire.
Valider expérimentalement les améliorations de performances sur diverses tâches STS et tâches de sous-classification.
Limitations:
D’autres études sont nécessaires pour déterminer si l’efficacité de la technique TP présentée dans cet article se généralise à tous les LLM et à toutes les méthodes d’intégration de phrases basées sur des invites.
L’analyse de l’applicabilité et de l’efficacité du LLM utilisant différents types de mécanismes d’attention est nécessaire.
Il est nécessaire d’évaluer l’efficacité et la performance des techniques TP pour les phrases extrêmement longues.
👍