Bài báo này đề cập đến sự gia tăng nhanh chóng của các Mô hình Ngôn ngữ Lớn (LLM) 1,8 nghìn tỷ tham số, chẳng hạn như GPT-4, đòi hỏi phải xem xét lại cơ bản các kiến trúc trung tâm dữ liệu để đảm bảo khả năng mở rộng, hiệu quả và tiết kiệm chi phí. Nghiên cứu này trình bày một khuôn khổ đồng thiết kế toàn diện, cùng nhau khám phá FLOPS, băng thông và dung lượng HBM, các cấu trúc mạng khác nhau (quang học hai tầng so với FullFlat), quy mô miền và các chiến lược xử lý/tối ưu hóa song song phổ biến được sử dụng trong LLM. Chúng tôi giới thiệu và đánh giá kiến trúc mạng FullFlat, cung cấp kết nối băng thông cao đồng nhất, độ trễ thấp giữa tất cả các nút, chứng minh tác động mang tính chuyển đổi của nó đối với hiệu suất và khả năng mở rộng. Thông qua các phân tích độ nhạy chi tiết, chúng tôi định lượng lợi ích của sự chồng chéo tính toán và giao tiếp, tận dụng các tổng hợp được tăng tốc bằng phần cứng, mở rộng miền và tăng dung lượng bộ nhớ. Nghiên cứu này cho thấy các lựa chọn thiết kế hệ thống tác động như thế nào đến việc sử dụng FLOPS của mô hình (MFU = FLOPS mô hình trên mỗi token * số token quan sát được trên mỗi giây / FLOPS tối đa của phần cứng) và thông lượng tổng thể trên cả LLM dựa trên biến áp thưa thớt (hỗn hợp chuyên gia) và dày đặc. Trong nghiên cứu đồng thiết kế của mình, chúng tôi đã sử dụng một công cụ mô hình hóa hiệu suất phân tích có khả năng dự đoán thời gian thực hiện LLM trong vòng 10% so với phép đo thực tế. Những phát hiện của chúng tôi cung cấp những hiểu biết thiết thực và một lộ trình thiết thực để thiết kế các trung tâm dữ liệu AI hỗ trợ hiệu quả các mô hình tham số bể chứa, giảm độ phức tạp của quá trình tối ưu hóa và duy trì sự phát triển nhanh chóng của các khả năng AI.