[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

SystolicAttention: Kết hợp FlashAttention trong một mảng Systolic duy nhất

Created by
  • Haebom

Tác giả

Jiawei Lin, Guokai Chen, Yuanlong Li, Thomas Bourgeat

Phác thảo

Trong bài báo này, chúng tôi đề xuất một kiến trúc mới dựa trên mảng tâm thu, Mảng tâm thu Flash Attention (FSA), để tăng tốc hiệu quả các mô hình Transformer bằng thuật toán FlashAttention. Các bộ tăng tốc dựa trên mảng tâm thu hiện có bị sử dụng thấp do phép nhân ma trận không liên tiếp và hoạt động softmax của FlashAttention. FSA giải quyết vấn đề này bằng cách thực thi toàn bộ thuật toán FlashAttention trong một mảng tâm thu duy nhất thông qua một thuật toán lập lịch mới có tên là SystolicAttention. SystolicAttention cải thiện việc sử dụng mảng thông qua chồng chéo từng phần tử chi tiết và đảm bảo tính ổn định về số bằng cách duy trì thứ tự hoạt động dấu phẩy động ban đầu. Chúng tôi triển khai FSA dưới dạng RTL có thể tổng hợp và so sánh nó với AWS NeuronCore-v2 và Google TPUv5e. Kết quả cho thấy nó đạt được mức sử dụng FLOPs/giây chú ý cao hơn 1,77 lần (so với NeuronCore-v2) và 4,83 lần (so với TPUv5e) với chi phí sử dụng diện tích khoảng 10%.

Takeaways, Limitations

Takeaways:
Khắc phục những hạn chế về hiệu suất của các bộ tăng tốc dựa trên mảng tâm thu hiện có bằng cách cho phép toàn bộ thuật toán FlashAttention chạy trong một mảng tâm thu duy nhất.
ĐạT được mức sử dụng FLOPs/s cao hơn đáng kể so với các trình tăng tốc thương mại hiện có (gấp 1,77 lần so với AWS NeuronCore-v2, gấp 4,83 lần so với Google TPUv5e).
ĐạT hiệu suất cao với chi phí đầu tư thấp (khoảng 10%).
Thuật toán SystolicAttention có khả năng áp dụng cao cho các thuật toán tương tự khác.
Limitations:
Hiện tại, kiến trúc này chuyên biệt cho thuật toán FlashAttention và có thể khó áp dụng cho các cơ chế chú ý khác.
Thiếu đánh giá hiệu suất trong các ứng dụng thực tế (bài báo chỉ trình bày đánh giá dựa trên RTL có thể tổng hợp)
Thiếu phân tích về hiệu quả năng lượng.
Cần có thêm nghiên cứu về tính tổng quát và khả năng mở rộng của thuật toán SystolicAttention.
👍