Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Sự chú ý thưa thớt hồi cứu để tạo ra bối cảnh dài hiệu quả

Created by
  • Haebom

Tác giả

Seonghwan Choi, Beomseok Kang, Dongwon Jo, Jae-Joon Kim

Phác thảo

Bài báo này đề xuất một kỹ thuật cập nhật bộ đệm KV mới, RetroAttention, để giải quyết tình trạng chậm lại trong quá trình suy luận của các mô hình ngôn ngữ quy mô lớn (LLM) trong các tác vụ văn bản dài (ví dụ: suy luận, tạo mã và các cuộc đối thoại nhiều lượt). Không giống như các phương pháp nén bộ đệm KV hiện có chủ yếu tập trung vào ngữ cảnh đầu vào, RetroAttention giải quyết các lỗi chú ý tích lũy bằng cách cập nhật các đầu ra chú ý trong quá khứ bằng cách sử dụng các mục KV mới đến trong các lần giải mã tiếp theo. Việc duy trì bộ đệm đầu ra nhẹ cho phép các truy vấn trong quá khứ truy cập hiệu quả vào các ngữ cảnh có liên quan hơn trong khi vẫn giảm thiểu chi phí độ trễ. Do đó, nó phá vỡ mô hình đầu ra chú ý cố định và cho phép cập nhật liên tục các phép tính gần đúng trước đó. Các thí nghiệm mở rộng trên các điểm chuẩn tạo văn bản dài chứng minh rằng RetroAttention luôn vượt trội hơn các phương pháp nén KV hiện đại (SOTA), cải thiện khả năng phơi nhiễm KV hiệu quả lên tới 1,6 lần và độ chính xác lên tới 21,9%.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp mới để giải quyết hiệu quả vấn đề tốc độ suy luận chậm trong LLM trong các nhiệm vụ văn bản dài.
Khắc phục những hạn chế của phương pháp nén bộ nhớ đệm KV hiện tại và đồng thời cải thiện độ chính xác và hiệu quả.
Cải thiện đáng kể hiệu suất của LLM bằng cách tăng khả năng tiếp xúc KV hiệu quả và cải thiện độ chính xác.
Một cách tiếp cận mới vượt ra ngoài mô hình đầu ra chú ý cố định được trình bày.
Limitations:
Thiếu thông tin chi tiết cụ thể về kích thước bộ nhớ đệm đầu ra nhẹ và chiến lược quản lý của RetroAttention.
Cần nghiên cứu thêm để xác định khả năng khái quát hóa trên các kiến trúc và nhiệm vụ LLM khác nhau.
Cần phải đánh giá hiệu suất và khả năng mở rộng trong môi trường ứng dụng thực tế.
👍