Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Phòng ngừa tràn giúp cải thiện LLM hồi quy ngữ cảnh dài

Created by
  • Haebom

Tác giả

Assaf Ben-Kish, Itamar Zimerman, M. Jehanzeb Mirza, Lior Wolf, James Glass, Leonid Karlinsky, Raja Giryes

Phác thảo

Bài báo này nghiên cứu những tiến bộ gần đây trong các mô hình cận bậc hai hồi quy để cải thiện hiệu quả xử lý ngữ cảnh dài. Chúng tôi nghiên cứu các mô hình ngữ cảnh dài hàng đầu, tập trung vào tác động của bộ nhớ hồi quy có kích thước cố định lên hiệu suất. Kết quả thử nghiệm cho thấy các mô hình này sử dụng không hết công suất của các mô hình ngữ cảnh dài ngay cả khi được huấn luyện với ngữ cảnh dài. Chúng tôi chứng minh rằng một quy trình suy luận dựa trên khối, chỉ xác định và xử lý các phần đầu vào có liên quan nhất, làm giảm thiểu lỗi bộ nhớ hồi quy và hiệu quả đối với nhiều tác vụ ngữ cảnh dài. Trên LongBench, phương pháp được đề xuất cải thiện hiệu suất của Falcon3-Mamba-Inst-7B 14%, Falcon-Mamba-Inst-7B 28%, RecurrentGemma-IT-9B 50% và RWKV6-Finch-7B 51%. Đáng chú ý, phương pháp đơn giản này đạt được kết quả tiên tiến nhất trên chuẩn LongBench v2 khắt khe, cạnh tranh với các Transformer có cùng kích thước. Hơn nữa, thực tế là chiến lược một khối đơn cung cấp hiệu suất tốt hơn đặt ra câu hỏi liệu các mô hình tuần hoàn có thực sự sử dụng các phụ thuộc tầm xa hay không.

Takeaways, Limitations

Takeaways: Cho thấy suy luận dựa trên khối có thể cải thiện đáng kể hiệu suất của các mô hình ngữ cảnh dài. Một phương pháp mới được trình bày để cải thiện hiệu quả xử lý ngữ cảnh dài trong các mô hình hồi quy. Đạt được hiệu suất tiên tiến trên LongBench v2. Bài báo cũng nêu lên nhu cầu xem xét lại việc sử dụng các phụ thuộc tầm xa trong các mô hình hồi quy.
Limitations: Cần nghiên cứu thêm để xác định khả năng khái quát hóa của phương pháp đề xuất. Cần thực hiện thêm các thí nghiệm trên nhiều tác vụ và mô hình ngữ cảnh dài hạn. Cần phân tích sâu hơn về hiệu quả bộ nhớ của các mô hình hồi quy.
👍