Bài báo này nghiên cứu những tiến bộ gần đây trong các mô hình cận bậc hai hồi quy để cải thiện hiệu quả xử lý ngữ cảnh dài. Chúng tôi nghiên cứu các mô hình ngữ cảnh dài hàng đầu, tập trung vào tác động của bộ nhớ hồi quy có kích thước cố định lên hiệu suất. Kết quả thử nghiệm cho thấy các mô hình này sử dụng không hết công suất của các mô hình ngữ cảnh dài ngay cả khi được huấn luyện với ngữ cảnh dài. Chúng tôi chứng minh rằng một quy trình suy luận dựa trên khối, chỉ xác định và xử lý các phần đầu vào có liên quan nhất, làm giảm thiểu lỗi bộ nhớ hồi quy và hiệu quả đối với nhiều tác vụ ngữ cảnh dài. Trên LongBench, phương pháp được đề xuất cải thiện hiệu suất của Falcon3-Mamba-Inst-7B 14%, Falcon-Mamba-Inst-7B 28%, RecurrentGemma-IT-9B 50% và RWKV6-Finch-7B 51%. Đáng chú ý, phương pháp đơn giản này đạt được kết quả tiên tiến nhất trên chuẩn LongBench v2 khắt khe, cạnh tranh với các Transformer có cùng kích thước. Hơn nữa, thực tế là chiến lược một khối đơn cung cấp hiệu suất tốt hơn đặt ra câu hỏi liệu các mô hình tuần hoàn có thực sự sử dụng các phụ thuộc tầm xa hay không.