Bài báo này là một bài khảo sát, cung cấp phân tích chuyên sâu về các phương pháp phục vụ hiệu quả cho các mô hình ngôn ngữ quy mô lớn (LLM) có tính sinh. Bài báo tập trung vào các vấn đề về tiêu thụ tài nguyên tính toán và sử dụng bộ nhớ cao, cản trở hiệu quả triển khai LLM, và đề cập đến một loạt các giải pháp, từ sửa đổi thuật toán đến thay đổi thiết kế hệ thống. Bài báo tiếp cận việc cải thiện hiệu quả phục vụ trong các tình huống yêu cầu độ trễ thấp và thông lượng cao từ góc nhìn của các hệ thống học máy (MLSys), và nhằm mục đích cung cấp cho các nhà nghiên cứu và chuyên gia những hiểu biết cần thiết để vượt qua các rào cản trong việc triển khai LLM và định hình lại tương lai của AI.