Dans cet article, nous présentons une nouvelle approche visant à améliorer les performances et à garantir la portabilité de l'inférence de modèles de langage à grande échelle (LLM). Pour remédier aux problèmes de portabilité liés à la dépendance traditionnelle à une plateforme unique, au verrouillage fournisseur et aux barrières à l'entrée de nouveaux matériels d'IA, nous proposons une méthode combinant la compilation juste-à-temps (JIT) avec un réglage automatique complet des paramètres du noyau. En nous concentrant sur les noyaux LLM critiques pour les performances, nous montrons que notre méthode explore jusqu'à 15 fois plus de configurations de paramètres du noyau, génère un code nettement plus diversifié sur plusieurs dimensions et améliore les performances jusqu'à 230 % par rapport aux implémentations optimisées par les fournisseurs, tout en réduisant la taille du code du noyau de 70 fois et en éliminant l'optimisation manuelle du code. Nos résultats soulignent que le réglage automatique est une approche prometteuse pour améliorer la portabilité des modèles entre les fournisseurs de GPU.