Bài báo này trình bày một phương pháp mới để giải quyết độ trễ Thời gian đến Mã thông báo Đầu tiên (TTFT) dài do độ phức tạp bậc hai của sự chú ý vanilla trong các mô hình ngôn ngữ quy mô lớn (LLM) hỗ trợ các cửa sổ ngữ cảnh rất dài. Trong khi các phương pháp hiện có yêu cầu tiền huấn luyện hoặc tinh chỉnh bổ sung và thường làm giảm độ chính xác của mô hình, bài báo này trình bày một phương pháp chú ý thưa thớt gần như không mất dữ liệu dựa trên bằng chứng lý thuyết và thực nghiệm. Chúng tôi nhấn mạnh tầm quan trọng của việc nắm bắt các mẫu thưa thớt cụ thể theo đầu một cách động và tiết kiệm chi phí tại thời điểm chạy. Để đạt được điều này, chúng tôi đề xuất SampleAttention, một phương pháp chú ý thưa thớt thích ứng, có cấu trúc và gần như không mất dữ liệu. SampleAttention tận dụng các mẫu thưa thớt đáng kể đã quan sát được để tập trung sự chú ý vào một tỷ lệ cố định các mã thông báo liền kề nhằm nắm bắt các mẫu cửa sổ cục bộ. Hơn nữa, phương pháp này sử dụng phương pháp lọc khóa-giá trị dựa trên truy vấn hai giai đoạn, có khả năng chọn một tập hợp khóa-giá trị tối thiểu một cách thích ứng với chi phí thấp để nắm bắt các mẫu cột-sọc. Kết quả đánh giá toàn diện cho thấy SampleAttention có thể thay thế sự chú ý vanilla trong LLM truyền thống mà hầu như không mất độ chính xác và giảm TTFT tới 2,42 lần so với FlashAttention.