Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

AirCache: Kích hoạt tính năng nén bộ nhớ đệm KV liên quan giữa các phương thức để suy luận mô hình ngôn ngữ thị giác lớn hiệu quả

Created by
  • Haebom

Tác giả

Kai Huang, Hao Zou, Bochen Wang, Ye Xi, Zhen Xie, Hao Wang

Phác thảo

Trong bài báo này, chúng tôi đề xuất AirCache, một phương pháp nén bộ nhớ đệm KV mới để tăng tốc suy luận của các mô hình ngôn ngữ thị giác quy mô lớn (LVLM). LVLM có khả năng suy luận và khái quát hóa tuyệt vời, nhưng chúng đòi hỏi chi phí tính toán đáng kể để xử lý nhiều mã thông báo thị giác và tạo ra các đầu ra ngữ cảnh dài, dẫn đến nhu cầu quá mức đối với bộ nhớ đệm KV. AirCache nghiên cứu một cách có hệ thống các mối tương quan giữa mã thông báo thị giác và văn bản, tìm thấy sự dư thừa đáng kể trong các mã thông báo thị giác được lưu trong bộ nhớ đệm và loại bỏ chúng một cách chiến lược để tăng tốc đáng kể việc tạo ngữ cảnh trong khi vẫn duy trì hiệu suất mô hình. Các thành phần chính bao gồm các cửa sổ quan sát ưu tú để đánh giá tầm quan trọng của các thành phần thị giác, mô hình hóa mức độ liên quan liên phương thức mạnh mẽ với tính nhất quán đa chế độ xem được cải thiện, và chiến lược phân bổ ngân sách theo từng lớp thích ứng, khai thác sức mạnh và tính bất đối xứng của phân phối tầm quan trọng của mã thông báo. Các đánh giá toàn diện trên một số LVLM và điểm chuẩn cho thấy AirCache đạt được hiệu suất tương tự so với bộ nhớ đệm đầy đủ trong khi chỉ duy trì 10% bộ nhớ đệm KV thị giác, giảm độ trễ giải mã từ 29% đến 66% cho các kích thước lô và độ dài dấu nhắc khác nhau. Đặc biệt, khi tỷ lệ lưu giữ bộ nhớ đệm giảm, hiệu suất sẽ được cải thiện hơn nữa so với các phương pháp hiện có.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày AirCache, một phương pháp nén bộ nhớ đệm KV mới giúp cải thiện hiệu quả tốc độ suy luận của LVLM.
Loại bỏ hiệu quả sự dư thừa của các mã thông báo trực quan để giảm chi phí tính toán.
Cải thiện hiệu quả sử dụng bộ nhớ đệm thông qua các chiến lược phân bổ ngân sách theo từng lớp thích ứng.
Giảm đáng kể độ trễ giải mã cho nhiều kích thước lô và độ dài nhắc nhở khác nhau.
Tỷ lệ lưu giữ bộ nhớ đệm càng thấp thì hiệu suất càng tốt so với các phương pháp hiện có.
Limitations:
Cải thiện hiệu suất của AirCache là kết quả cho các LVLM và điểm chuẩn cụ thể, còn hiệu suất tổng quát trên các mô hình hoặc tập dữ liệu khác cần được nghiên cứu thêm.
Cần nghiên cứu thêm về tối ưu hóa tham số của cửa sổ quan sát ưu tú và các chiến lược phân bổ ngân sách theo từng lớp thích ứng.
Do những hạn chế trong cách đánh giá tầm quan trọng của các mã thông báo trực quan nên có khả năng một số thông tin quan trọng có thể bị mất.
👍