Trong bài báo này, chúng tôi trình bày một phương pháp mới nhằm cải thiện hiệu suất và đảm bảo tính di động của suy luận mô hình ngôn ngữ quy mô lớn (LLM). Để giải quyết các vấn đề về tính di động kém do sự phụ thuộc vào một nền tảng truyền thống, sự phụ thuộc vào nhà cung cấp và các rào cản gia nhập phần cứng AI mới, chúng tôi đề xuất một phương pháp kết hợp biên dịch đúng lúc (JIT) với tính năng tự động điều chỉnh tham số hạt nhân toàn diện. Tập trung vào các hạt nhân LLM quan trọng về hiệu suất, chúng tôi chứng minh rằng phương pháp của chúng tôi khám phá nhiều hơn tới 15 lần các cấu hình tham số hạt nhân, tạo ra mã đa dạng hơn đáng kể trên nhiều chiều và cải thiện hiệu suất lên tới 230% so với các triển khai được tối ưu hóa bởi nhà cung cấp, đồng thời giảm kích thước mã hạt nhân xuống 70 lần và loại bỏ việc tối ưu hóa mã thủ công. Kết quả của chúng tôi nhấn mạnh rằng tự động điều chỉnh là một phương pháp đầy hứa hẹn để cải thiện tính di động của mô hình giữa các nhà cung cấp GPU.