Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Khối: Cân bằng tải trong dịch vụ LLM với bối cảnh, kiến thức và lập lịch dự đoán

Created by
  • Haebom

Tác giả

Wei Da, Evangelia Kalyvianaki

Phác thảo

Bài báo này trình bày Block, một khuôn khổ lập lịch phân tán tận dụng thông tin ngữ cảnh về các yêu cầu đến để tối ưu hóa cân bằng tải và cung cấp tự động trên các phiên bản trong một khuôn khổ phục vụ mô hình ngôn ngữ quy mô lớn. Không giống như các hệ thống phục vụ mô hình hiện có dựa trên các bộ lập lịch tác vụ theo kinh nghiệm, nguyên khối, Block hoạt động như một hệ thống lập lịch phân tán hoàn toàn, không trạng thái và dự đoán, mang lại chi phí thấp, độ tin cậy và khả năng mở rộng. Nó tận dụng các đặc tính xác định và có thể dự đoán của suy luận LLM, chẳng hạn như cấu hình máy chủ, độ dài phản hồi và hiệu suất phần cứng, để đưa ra quyết định lập lịch dựa trên các số liệu được dự đoán chính xác. Kết quả đánh giá trên cụm 12 GPU chứng minh rằng Block vượt trội đáng kể so với các bộ lập lịch theo kinh nghiệm, tăng khả năng phục vụ lên tới 16,7% và giảm độ trễ P99 lên tới 49,5%. Những cải thiện về hiệu suất này nhất quán trên nhiều mô hình, khối lượng công việc và cấu hình khác nhau. Mã và dữ liệu là mã nguồn mở.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một khuôn khổ lập lịch phân tán mới có thể cải thiện đáng kể hiệu suất của các hệ thống phục vụ mô hình ngôn ngữ quy mô lớn.
Tăng khả năng phục vụ và giảm độ trễ bằng cách thực hiện cân bằng tải và cung cấp tự động hiệu quả.
Tận dụng các đặc tính của suy luận LLM, chúng tôi cho phép lập lịch trình dựa trên dự đoán chính xác.
ĐâY là mã nguồn mở và có thể được các nhà nghiên cứu khác sử dụng.
Limitations:
Vì chỉ được đánh giá trên cụm 12 GPU nên cần nghiên cứu thêm để xác định hiệu suất sẽ thay đổi như thế nào trên các cụm lớn hơn.
Mặc dù chúng tôi đã thực hiện đánh giá trên nhiều mô hình và khối lượng công việc khác nhau, nhưng vẫn cần xác thực thêm để đảm bảo khả năng tổng quát hóa trên tất cả các loại LLM và khối lượng công việc.
Cần phải đánh giá thêm về tính ổn định và khả năng mở rộng lâu dài trong môi trường hoạt động thực tế.
👍