Trong bài báo này, chúng tôi đề xuất một Grouped-Head Laten T để giải quyết các vấn đề về tính toán và bộ nhớ quá tải của cơ chế chú ý, đóng vai trò quan trọng trong việc cải thiện hiệu suất của các mô hình ngôn ngữ quy mô lớn (LLM). Chúng tôi đề xuất Attention (GTA). GTA bao gồm hai thành phần: chia sẻ bản đồ chú ý trên nhiều đầu đọc và nén bộ đệm giá trị vào không gian tiềm ẩn. Mục tiêu của nó là giảm FLOP của tính toán chú ý lên đến 62,5% và bộ đệm KV lên đến 70%, đồng thời duy trì hiệu suất, giảm mức sử dụng bộ nhớ và độ phức tạp tính toán. Kết quả là, mô hình GTA cho thấy hiệu quả cải thiện tốc độ suy luận đầu cuối lên gấp đôi.