Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

TokenSelect: Suy luận ngữ cảnh dài hiệu quả và ngoại suy độ dài cho LLM thông qua lựa chọn bộ đệm KV cấp mã thông báo động

Created by
  • Haebom

Tác giả

Wei Wu, Zhuoshi Pan, Chao Wang, Liyi Chen, Yunchu Bai, Tianfu Wang, Kun Fu, Zheng Wang, Hui Xiong

Phác thảo

Để Giải quyết các vấn đề về suy giảm hiệu suất và độ phức tạp tính toán trong xử lý ngữ cảnh văn bản dài, bài báo này đề xuất Phương pháp Chọn Bộ đệm KV Động Cấp Mã thông báo (TokenSelect), một phương pháp mới, không cần đào tạo. TokenSelect thực hiện tính toán sự chú ý một cách chọn lọc, chỉ sử dụng các mã thông báo bộ đệm KV quan trọng dựa trên các phép đo mức độ quan trọng ở cấp mã thông báo. Phương pháp này giảm thiểu chi phí lựa chọn và cải thiện tốc độ bằng cách sử dụng Bộ đệm Lựa chọn được thiết kế dựa trên các quan sát về độ tương đồng của truy vấn và một Nhân Tích Điểm Phân Trang hiệu quả. Kết quả thử nghiệm cho thấy hiệu suất vượt trội so với các phương pháp hiện có, với tốc độ tính toán sự chú ý tăng tới 23,84 lần và độ trễ đầu cuối giảm tới 2,28 lần.

Takeaways, Limitations

Takeaways:
Một phương pháp hiệu quả để cải thiện đồng thời tốc độ và độ chính xác của quá trình xử lý ngữ cảnh dài hạn mà không cần đào tạo được trình bày.
Giải quyết hiệu quả vấn đề suy giảm tốc độ của các phương pháp xử lý ngữ cảnh văn bản dài hiện có, đó là Limitations.
Giảm chi phí tính toán thông qua phép đo mức độ quan trọng ở cấp độ mã thông báo và sử dụng bộ đệm KV tùy chọn.
Limitations:
Có khả năng hiệu suất của phương pháp đề xuất có thể bị ảnh hưởng bởi các tập dữ liệu hoặc mô hình cụ thể.
Hiệu quả của Selection Cache và Paged Dot Product Kernel có thể khác nhau tùy thuộc vào kích thước tập dữ liệu hoặc kích thước mô hình.
Cần có thêm nhiều thí nghiệm hơn nữa về nhiều loại LLM và lĩnh vực ứng dụng khác nhau.
👍