Để Giải quyết các vấn đề về suy giảm hiệu suất và độ phức tạp tính toán trong xử lý ngữ cảnh văn bản dài, bài báo này đề xuất Phương pháp Chọn Bộ đệm KV Động Cấp Mã thông báo (TokenSelect), một phương pháp mới, không cần đào tạo. TokenSelect thực hiện tính toán sự chú ý một cách chọn lọc, chỉ sử dụng các mã thông báo bộ đệm KV quan trọng dựa trên các phép đo mức độ quan trọng ở cấp mã thông báo. Phương pháp này giảm thiểu chi phí lựa chọn và cải thiện tốc độ bằng cách sử dụng Bộ đệm Lựa chọn được thiết kế dựa trên các quan sát về độ tương đồng của truy vấn và một Nhân Tích Điểm Phân Trang hiệu quả. Kết quả thử nghiệm cho thấy hiệu suất vượt trội so với các phương pháp hiện có, với tốc độ tính toán sự chú ý tăng tới 23,84 lần và độ trễ đầu cuối giảm tới 2,28 lần.