Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

SystolicAttention: Kết hợp FlashAttention trong một mảng Systolic duy nhất

Created by
  • Haebom

Tác giả

Jiawei Lin, Guokai Chen, Yuanlong Li, Thomas Bourgeat

Phác thảo

Bài báo này đề xuất Flash Systolic Array (FSA), một kiến trúc mảng tâm thu mới lạ để tăng tốc hiệu quả các mô hình Transformer dựa trên thuật toán FlashAttention. Các bộ tăng tốc dựa trên mảng tâm thu hiện tại gặp phải tình trạng sử dụng thấp và suy giảm hiệu suất do việc thực hiện xen kẽ thường xuyên các phép toán nhân ma trận và softmax của FlashAttention. FSA triển khai một thuật toán lập lịch mới lạ có tên là SystolicAttention để thực hiện đầy đủ các phép toán FlashAttention trong một mảng tâm thu duy nhất. Điều này cho phép chồng chéo chi tiết các phép toán nhân ma trận và softmax mà không cần các đơn vị vectơ bên ngoài, cải thiện đáng kể việc sử dụng mảng. Được triển khai dưới dạng RTL có thể tổng hợp, FSA đạt được mức sử dụng FLOPs/giây chú ý cao hơn lần lượt là 1,77 lần và 4,83 lần so với AWS Neuron v2 và Google TPUv5e, với chi phí sử dụng diện tích chỉ là 12%.

Takeaways, Limitations

Takeaways:
Bằng cách cho phép thực thi đầy đủ thuật toán FlashAttention trong một mảng tâm thu duy nhất, chúng tôi giải quyết các vấn đề suy giảm hiệu suất của các kiến trúc hiện có.
Xử lý song song hiệu quả các phép nhân ma trận và các phép toán softmax cũng như sử dụng mảng cao đã đạt được thông qua thuật toán SystolicAttention.
Nó cho thấy hiệu suất cao hơn đáng kể so với AWS Neuron v2 và Google TPUv5e, cho thấy khả năng thiết kế một bộ tăng tốc phần cứng có tính cạnh tranh.
Thiết kế này thể hiện tính kinh tế với hiệu suất cải thiện cao và chi phí đầu tư thấp.
Limitations:
Những cải tiến về hiệu suất của kiến trúc FSA được trình bày trong bài báo này được thể hiện thông qua so sánh với các nền tảng phần cứng cụ thể (AWS Neuron v2, Google TPUv5e), do đó hiệu suất trên các nền tảng khác cần được xác minh bổ sung.
Hiệu quả của FSA phụ thuộc rất nhiều vào hiệu suất của thuật toán SystolicAttention và hiệu suất tổng quát của thuật toán này trên dữ liệu đầu vào có nhiều kích thước và hình dạng khác nhau cần được nghiên cứu thêm.
Việc phân tích hiệu quả năng lượng còn thiếu sót. Mặc dù hiệu suất cao đã đạt được, nhưng mức tiêu thụ điện năng có thể đã tăng lên.
👍