Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Compression de séquences de jetons sans perte via des méta-jetons

Created by
  • Haebom

Auteur

John Harvill, Ziwei Fan, Hao Wang, Luke Huan, Anoop Deoras, Yizhou Sun, Hao Ding

Contour

Contrairement aux recherches précédentes sur la compression rapide pour les modèles de langage à grande échelle (LLM), qui se concentrent principalement sur des méthodes sacrifiant l'information sémantique, cet article présente une technique de compression sans perte, indépendante de la tâche, similaire à LZ77. Sur deux tâches d'évaluation, nous démontrons que la technique proposée réduit la longueur des séquences de jetons d'entrée de respectivement 27 % et 18 %. De plus, l'utilisation d'un LLM basé sur un transformateur réduit les calculs d'encodage de respectivement 47 % et 33 %, en raison de la nature quadratique de l'attention. Nous soulignons que les transformations de séquences de jetons sont facilement réversibles, sans perte d'information sémantique. Nous évaluons la méthode proposée sur deux tâches nécessitant une préservation précise des informations sémantiques et syntaxiques, et démontrons que les méthodes de compression avec perte existantes sont moins performantes dans ces contextes. La technique sans perte présente une faible différence de performance par rapport aux entrées non compressées, et nous prévoyons que cette différence de performance disparaîtra entièrement avec des modèles plus grands et des budgets de calcul accrus.

Takeaways, Limitations

Takeaways:
Nous présentons une technique de compression sans perte indépendante de la tâche pour les invites LLM, démontrant que la longueur de la séquence de jetons d'entrée peut être considérablement réduite.
Il peut réduire efficacement la charge de calcul d'encodage du LLM basé sur un transformateur.
Il surpasse les méthodes de compression avec perte existantes dans les tâches où la préservation précise des informations de signification/syntaxiques est importante.
Limitations:
Malgré l'utilisation d'une technique de compression sans perte, il existe une petite différence de performances par rapport à une entrée non compressée.
L’évaluation s’est limitée à deux tâches, nécessitant des recherches supplémentaires sur la généralisabilité.
Les améliorations de performances avec des modèles plus grands et des budgets de calcul étendus n’ont pas été confirmées expérimentalement.
👍