Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Attention clairsemée rétrospective pour une génération efficace de contexte long

Created by
  • Haebom

Auteur

Seonghwan Choi, Beomseok Kang, Dongwon Jo, Jae-Joon Kim

Contour

Cet article propose une nouvelle technique de mise à jour du cache KV, RetroAttention, pour remédier au ralentissement de l'inférence des modèles de langage à grande échelle (LLM) dans les tâches de texte long (par exemple, l'inférence, la génération de code et les dialogues multitours). Contrairement aux méthodes de compression de cache KV existantes qui se concentrent principalement sur le contexte d'entrée, RetroAttention corrige les erreurs d'attention accumulées en mettant à jour les sorties d'attention passées à l'aide des nouvelles entrées KV lors des passes de décodage suivantes. Le maintien d'un cache de sortie léger permet aux requêtes passées d'accéder efficacement à des contextes plus pertinents tout en minimisant la latence. Par conséquent, il rompt avec le paradigme de sortie d'attention fixe et permet une mise à jour continue des approximations précédentes. Des expériences approfondies sur des tests de génération de texte long démontrent que RetroAttention surpasse systématiquement les méthodes de compression KV de pointe (SOTA), améliorant l'exposition effective au KV jusqu'à 1,6 fois et la précision jusqu'à 21,9 %.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode pour résoudre efficacement le problème de la lenteur de l'inférence dans les tâches de texte long en LLM.
Surmonter les limites des méthodes de compression de cache KV existantes et améliorer simultanément la précision et l'efficacité.
Amélioration significative des performances du LLM en augmentant l'exposition efficace du KV et en améliorant la précision.
Une nouvelle approche au-delà du paradigme de sortie d’attention fixe est présentée.
Limitations:
Manque de détails spécifiques sur la taille du cache de sortie léger et la stratégie de gestion de RetroAttention.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité à travers différentes architectures et tâches LLM.
Une évaluation des performances et de l’évolutivité dans des environnements d’application réels est nécessaire.
👍