Bài báo này trình bày Photonic Fabric™ và Photonic Fabric Appliance™ (PFA), các hệ thống con chuyển mạch và bộ nhớ dựa trên quang học cung cấp độ trễ thấp, băng thông cao và mức tiêu thụ năng lượng thấp. PFA tích hợp bộ nhớ HBM3E băng thông cao, các chuyển mạch quang trên mô-đun và DDR5 bên ngoài thành một hệ thống quang điện tử 2.5D trong gói, cung cấp tới 32 TB bộ nhớ dùng chung và 115 Tbps chuyển mạch kỹ thuật số tất cả trong một. Photonic Fabric™ cho phép đào tạo và suy luận AI phân tán để thực hiện các chiến lược song song hiệu quả hơn. Nó loại bỏ các ràng buộc của bãi biển silicon giới hạn tỷ lệ bộ nhớ trên máy tính cố định được quan sát thấy trong các thiết kế bộ tăng tốc XPU truyền thống. Việc thay thế ngăn xếp HBM cục bộ trong XPU bằng các chiplet được kết nối với Photonic Fabric làm tăng dung lượng bộ nhớ và băng thông, mở rộng đến mức không thể đạt được chỉ với HBM trên gói. Chúng tôi giới thiệu CelestiSim, một trình mô phỏng phân tích nhẹ đã được xác thực trên các hệ thống NVIDIA H100 và H200, để đánh giá hiệu suất và khả năng tiết kiệm năng lượng của LLM trong PFA mà không cần thay đổi đáng kể thiết kế lõi GPU. Kết quả mô phỏng cho thấy việc sử dụng PFA giúp cải thiện thông lượng lên đến 3,66 lần và giảm độ trễ 1,40 lần trong suy luận LLM 405 tham số, cải thiện thông lượng lên đến 7,04 lần và giảm độ trễ 1,41 lần trong suy luận LLM 1 tham số, đồng thời giảm 60-90% năng lượng di chuyển dữ liệu của phép tính tập thể trong tất cả các kịch bản huấn luyện LLM. Mặc dù những kết quả này được trình bày cho GPU NVIDIA, chúng cũng có thể được áp dụng tương tự cho các thiết kế bộ tăng tốc AI (XPU) khác có cùng hạn chế cơ bản là tỷ lệ bộ nhớ trên phép tính cố định.