Bài báo này đề xuất các chiến lược tăng tốc và tối ưu hóa ở cấp độ mô hình và hệ thống nhằm giảm độ trễ suy luận và tăng thông lượng hệ thống trong các hệ thống khuyến nghị thời gian thực, vốn ngày càng trở nên quan trọng do sự phát triển nhanh chóng của các dịch vụ Internet. Các tối ưu hóa ở cấp độ mô hình, chẳng hạn như thiết kế mạng nhẹ, cắt tỉa cấu trúc và lượng tử hóa trọng số, giúp giảm đáng kể số lượng tham số mô hình và yêu cầu tính toán. Hiệu suất ở cấp độ hệ thống được nâng cao bằng cách tích hợp các nền tảng điện toán không đồng nhất, tận dụng các thư viện suy luận hiệu suất cao và triển khai các cơ chế lập lịch suy luận đàn hồi và cân bằng tải dựa trên các đặc điểm tải thời gian thực. Kết quả thử nghiệm chứng minh một giải pháp thực tế giúp giảm độ trễ dưới 30% so với đường cơ sở và tăng gấp đôi thông lượng hệ thống trong khi vẫn duy trì độ chính xác khuyến nghị đường cơ sở.