En este artículo, proponemos un modelo latente de cabeza agrupada para resolver los problemas de sobrecarga computacional y de memoria del mecanismo de atención, que juega un papel importante en la mejora del rendimiento de los modelos de lenguaje a gran escala (LLM). Proponemos Atención (GTA). GTA consta de dos componentes: compartir el mapa de atención entre múltiples cabezas y comprimir la caché de valores en el espacio latente. Su objetivo es reducir los FLOP del cálculo de atención hasta en un 62,5 % y la caché KV hasta en un 70 %, manteniendo el rendimiento y reduciendo el uso de memoria y la complejidad computacional. Como resultado, el modelo GTA muestra un efecto de mejora de la velocidad de inferencia de extremo a extremo por un factor de 2.