Bài báo này trình bày Block, một khuôn khổ lập lịch phân tán tận dụng thông tin ngữ cảnh về các yêu cầu đến để tối ưu hóa cân bằng tải và cung cấp tự động trên các phiên bản trong một khuôn khổ phục vụ mô hình ngôn ngữ quy mô lớn. Không giống như các hệ thống phục vụ mô hình hiện có dựa trên các bộ lập lịch tác vụ theo kinh nghiệm, nguyên khối, Block hoạt động như một hệ thống lập lịch phân tán hoàn toàn, không trạng thái và dự đoán, mang lại chi phí thấp, độ tin cậy và khả năng mở rộng. Nó tận dụng các đặc tính xác định và có thể dự đoán của suy luận LLM, chẳng hạn như cấu hình máy chủ, độ dài phản hồi và hiệu suất phần cứng, để đưa ra quyết định lập lịch dựa trên các số liệu được dự đoán chính xác. Kết quả đánh giá trên cụm 12 GPU chứng minh rằng Block vượt trội đáng kể so với các bộ lập lịch theo kinh nghiệm, tăng khả năng phục vụ lên tới 16,7% và giảm độ trễ P99 lên tới 49,5%. Những cải thiện về hiệu suất này nhất quán trên nhiều mô hình, khối lượng công việc và cấu hình khác nhau. Mã và dữ liệu là mã nguồn mở.