Cet article aborde le problème suivant : malgré l'amélioration des performances de traitement de texte à long terme due à l'augmentation de la taille de la fenêtre contextuelle des modèles linguistiques à grande échelle (LLM), à mesure que les cycles de conversation se poursuivent, une grande quantité de cache KV est requise dans la mémoire GPU, ce qui affecte sérieusement l'efficacité et la disponibilité du système de service de modèles. En analysant les données de conversation utilisateur réelles cycle par cycle, nous trouvons une couche de partage des eaux dans l'inférence LLM et confirmons que les distributions d'attention aux niveaux de cycle suivants sont similaires. Sur cette base, nous proposons un nouveau mécanisme d'attention au niveau du cycle, Round Attention, qui détermine dynamiquement la valeur k via la matrice d'attention de la couche de partage des eaux et traite sélectivement uniquement les caches KV des k cycles les plus pertinents. L'analyse théorique montre qu'elle peut réduire l'utilisation de la mémoire de 54 % à 82 %, et les résultats expérimentaux montrent qu'un chargement parcimonieux du cache KV des cycles critiques maintient la précision sans dégradation des performances.