Este documento aborda el problema de que a pesar de la mejora en el rendimiento del procesamiento de texto a largo plazo debido al aumento del tamaño de la ventana de contexto de los modelos de lenguaje a gran escala (LLM), a medida que continúan las rondas de conversación, se requiere una gran cantidad de almacenamiento de caché KV en la memoria de la GPU, lo que afecta seriamente la eficiencia y la disponibilidad del sistema de servicio del modelo. Al analizar los datos de conversación de usuarios reales ronda por ronda, encontramos una capa divisoria en la inferencia de LLM y confirmamos que las distribuciones de atención en los niveles de ronda posteriores son similares. Con base en esto, proponemos un novedoso mecanismo de atención a nivel de ronda, Round Attention, que determina dinámicamente el valor k a través de la matriz de atención de la capa divisoria y procesa selectivamente solo las cachés KV de las k rondas relevantes superiores. El análisis teórico muestra que puede reducir el uso de memoria entre un 54% y un 82%, y los resultados experimentales muestran que la carga dispersa de la caché KV de rondas críticas mantiene la precisión sin degradación del rendimiento.