Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Nền tảng Photonic Fabric dành cho các bộ tăng tốc AI

Created by
  • Haebom

Tác giả

Tĩnh Đỉnh, Trung Điệp

Phác thảo

Bài báo này trình bày Photonic Fabric™ và Photonic Fabric Appliance™ (PFA), các hệ thống con chuyển mạch và bộ nhớ dựa trên quang học cung cấp độ trễ thấp, băng thông cao và mức tiêu thụ năng lượng thấp. PFA tích hợp bộ nhớ HBM3E băng thông cao, các chuyển mạch quang trên mô-đun và DDR5 bên ngoài thành một hệ thống quang điện tử 2.5D trong gói, cung cấp tới 32 TB bộ nhớ dùng chung và 115 Tbps chuyển mạch kỹ thuật số tất cả trong một. Photonic Fabric™ cho phép đào tạo và suy luận AI phân tán để thực hiện các chiến lược song song hiệu quả hơn. Nó loại bỏ các ràng buộc của bãi biển silicon giới hạn tỷ lệ bộ nhớ trên máy tính cố định được quan sát thấy trong các thiết kế bộ tăng tốc XPU truyền thống. Việc thay thế ngăn xếp HBM cục bộ trong XPU bằng các chiplet được kết nối với Photonic Fabric làm tăng dung lượng bộ nhớ và băng thông, mở rộng đến mức không thể đạt được chỉ với HBM trên gói. Chúng tôi giới thiệu CelestiSim, một trình mô phỏng phân tích nhẹ đã được xác thực trên các hệ thống NVIDIA H100 và H200, để đánh giá hiệu suất và khả năng tiết kiệm năng lượng của LLM trong PFA mà không cần thay đổi đáng kể thiết kế lõi GPU. Kết quả mô phỏng cho thấy việc sử dụng PFA giúp cải thiện thông lượng lên đến 3,66 lần và giảm độ trễ 1,40 lần trong suy luận LLM 405 tham số, cải thiện thông lượng lên đến 7,04 lần và giảm độ trễ 1,41 lần trong suy luận LLM 1 tham số, đồng thời giảm 60-90% năng lượng di chuyển dữ liệu của phép tính tập thể trong tất cả các kịch bản huấn luyện LLM. Mặc dù những kết quả này được trình bày cho GPU NVIDIA, chúng cũng có thể được áp dụng tương tự cho các thiết kế bộ tăng tốc AI (XPU) khác có cùng hạn chế cơ bản là tỷ lệ bộ nhớ trên phép tính cố định.

Takeaways, Limitations

Takeaways:
Một kiến trúc quang học mới khắc phục được những hạn chế của tỷ lệ bộ nhớ cố định trên khả năng tính toán được trình bày.
Thể hiện tiềm năng cải thiện đáng kể hiệu suất suy luận và học tập của LLM cũng như hiệu quả năng lượng (cải thiện thông lượng lên đến 7 lần, tiết kiệm năng lượng lên đến 90%)
Khả năng áp dụng cho nhiều thiết kế máy tăng tốc AI khác nhau
ĐáNh giá hiệu suất hiệu quả có thể thực hiện được với trình mô phỏng phân tích nhẹ CelestiSim
Limitations:
Hiện tại, việc triển khai và xác minh thực tế cần phải dựa trên kết quả mô phỏng.
Thiếu phân tích về chi phí và tính phức tạp của PFA
Cần nghiên cứu thêm về khả năng tổng quát hóa cho nhiều kiến trúc XPU khác nhau.
Cần phân tích sâu hơn về độ chính xác và hạn chế của CelestiSim
👍