Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Nút thắt LLM mới: Quan điểm hệ thống về sự chú ý tiềm ẩn và sự pha trộn của các chuyên gia

Created by
  • Haebom

Tác giả

Sungmin Yun, Park Seonyong, Hwayong Nam, Younjoo Lee, Gunjun Lee, Kwanhee Kyung, Sangpyo Kim, Nam Sung Kim, Jongmin Kim, Hyungyo Kim, Juhwan Cho, Seungmin Baek, Jung Ho Ahn

Phác thảo

Bài báo này chỉ ra rằng khối lượng công việc của mô hình Transformer hiện tại được chia thành các ràng buộc về bộ nhớ của Multi-Head Attention (MHA) và các ràng buộc về tính toán của lớp truyền thẳng. Sự chia nhánh này đã thúc đẩy nghiên cứu phần cứng chuyên biệt để giảm bớt tình trạng tắc nghẽn của MHA. Tuy nhiên, những thay đổi về kiến trúc gần đây như Multi-head Latent Attention (MLA) và Mixture-of-Experts (MoE) đặt ra câu hỏi về sự cần thiết của phần cứng chú ý chuyên biệt. Bài báo cho thấy cường độ tính toán của MLA cao hơn gấp hai lần so với MHA, khiến nó phù hợp với các bộ tăng tốc hiện đại như GPU và MoE có thể phù hợp với các lớp dày đặc bằng cách phân bổ các chuyên gia trên một nhóm các bộ tăng tốc và điều chỉnh cường độ tính toán thông qua các đợt. Do đó, chúng tôi cho rằng thách thức chính đối với Transformer thế hệ tiếp theo không phải là tăng tốc của một lớp bị hạn chế về bộ nhớ, mà là thiết kế một hệ thống cân bằng với hiệu suất tính toán, dung lượng bộ nhớ, băng thông bộ nhớ và kết nối băng thông cao đủ để quản lý các yêu cầu đa dạng của các mô hình lớn.

Takeaways, Limitations

Takeaways:
Kiến trúc MLA và MoE làm giảm tình trạng tắc nghẽn bộ nhớ của MHA truyền thống, giảm nhu cầu về phần cứng chuyên dụng.
Trọng tâm phát triển Transformer thế hệ tiếp theo cho thấy cần chuyển sang thiết kế hệ thống cân bằng, bao gồm hiệu suất tính toán, dung lượng bộ nhớ, băng thông bộ nhớ và kết nối băng thông cao.
Chúng tôi trình bày các hướng thiết kế phần cứng và phần mềm để triển khai hiệu quả MLA và MoE.
Limitations:
Cần nghiên cứu thêm để xác định liệu MLA và MoE có thể áp dụng cho tất cả các loại mô hình Máy biến áp hay không.
Không có khuyến nghị cụ thể nào được đưa ra cho thiết kế hệ thống cân bằng đáp ứng được các yêu cầu đa dạng của các mô hình quy mô lớn.
Kết quả đánh giá hiệu suất trên nền tảng phần cứng thực tế không được trình bày.
👍