Cet article propose une nouvelle technique de mise à jour du cache KV, RetroAttention, pour remédier au ralentissement de l'inférence des modèles de langage à grande échelle (LLM) dans les tâches de texte long (par exemple, l'inférence, la génération de code et les dialogues multitours). Contrairement aux méthodes de compression de cache KV existantes qui se concentrent principalement sur le contexte d'entrée, RetroAttention corrige les erreurs d'attention accumulées en mettant à jour les sorties d'attention passées à l'aide des nouvelles entrées KV lors des passes de décodage suivantes. Le maintien d'un cache de sortie léger permet aux requêtes passées d'accéder efficacement à des contextes plus pertinents tout en minimisant la latence. Par conséquent, il rompt avec le paradigme de sortie d'attention fixe et permet une mise à jour continue des approximations précédentes. Des expériences approfondies sur des tests de génération de texte long démontrent que RetroAttention surpasse systématiquement les méthodes de compression KV de pointe (SOTA), améliorant l'exposition effective au KV jusqu'à 1,6 fois et la précision jusqu'à 21,9 %.