Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

SampleAttention: Tăng tốc gần như không mất dữ liệu của suy luận LLM ngữ cảnh dài với sự chú ý thưa thớt có cấu trúc thích ứng

Created by
  • Haebom

Tác giả

Thiên Triều Chư, Giang Phi Đoàn, Trường Thần, Lưu Tư Nhiên, Quan Vũ Phong, Tín Lv, Tiểu Xuyên Phúc, Đại Hoa Lâm, Triều Dương

Phác thảo

Bài báo này trình bày một phương pháp mới để giải quyết độ trễ Thời gian đến Mã thông báo Đầu tiên (TTFT) dài do độ phức tạp bậc hai của sự chú ý vanilla trong các mô hình ngôn ngữ quy mô lớn (LLM) hỗ trợ các cửa sổ ngữ cảnh rất dài. Trong khi các phương pháp hiện có yêu cầu tiền huấn luyện hoặc tinh chỉnh bổ sung và thường làm giảm độ chính xác của mô hình, bài báo này trình bày một phương pháp chú ý thưa thớt gần như không mất dữ liệu dựa trên bằng chứng lý thuyết và thực nghiệm. Chúng tôi nhấn mạnh tầm quan trọng của việc nắm bắt các mẫu thưa thớt cụ thể theo đầu một cách động và tiết kiệm chi phí tại thời điểm chạy. Để đạt được điều này, chúng tôi đề xuất SampleAttention, một phương pháp chú ý thưa thớt thích ứng, có cấu trúc và gần như không mất dữ liệu. SampleAttention tận dụng các mẫu thưa thớt đáng kể đã quan sát được để tập trung sự chú ý vào một tỷ lệ cố định các mã thông báo liền kề nhằm nắm bắt các mẫu cửa sổ cục bộ. Hơn nữa, phương pháp này sử dụng phương pháp lọc khóa-giá trị dựa trên truy vấn hai giai đoạn, có khả năng chọn một tập hợp khóa-giá trị tối thiểu một cách thích ứng với chi phí thấp để nắm bắt các mẫu cột-sọc. Kết quả đánh giá toàn diện cho thấy SampleAttention có thể thay thế sự chú ý vanilla trong LLM truyền thống mà hầu như không mất độ chính xác và giảm TTFT tới 2,42 lần so với FlashAttention.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một kỹ thuật chú ý thưa thớt mới có hiệu quả giải quyết vấn đề độ trễ TTFT của LLM với cửa sổ ngữ cảnh dài.
ÁP dụng cho các LLM hiện có mà không cần đào tạo trước hoặc điều chỉnh thêm.
Giảm đáng kể TTFT so với FlashAttention mà hầu như không làm giảm độ chính xác.
Chúng tôi trình bày một phương pháp hiệu quả để nắm bắt động các mẫu thưa thớt trên mỗi đầu khi chạy.
Limitations:
Cần nghiên cứu thêm để xác định hiệu suất của SampleAttention có thể tổng quát hóa tốt như thế nào trên các kiến ​​trúc LLM và kích thước cửa sổ ngữ cảnh khác nhau.
Cần có một phân tích so sánh toàn diện hơn với các kỹ thuật chú ý thưa thớt tiên tiến khác.
Thiếu đánh giá hiệu suất cho các cửa sổ ngữ cảnh cực kỳ dài.
👍