Cet article propose Tilus, un nouveau langage spécifique à un domaine (DSL) pour l'implémentation efficace de modèles de langage à grande échelle (LLM). La mise en œuvre de LLM nécessite des ressources de calcul importantes, et le calcul basse précision est un moyen efficace de réduire la consommation de ressources. Les méthodes existantes de génération de noyau basse précision ont des largeurs de bits limitées à des puissances de deux et souffrent de performances sous-optimales en raison des abstractions de programmation GPU de haut niveau. Tilus prend en charge les types de données basse précision avec des largeurs de bits arbitraires de 1 à 8 bits, et dispose d'un modèle de programmation par blocs threadé, d'un espace mémoire hiérarchique et d'un nouveau système de disposition algébrique. Il compile en programmes GPU efficaces grâce à la vectorisation et à la sélection d'instructions automatiques, surpassant les méthodes existantes telles que Triton, Ladder, QuantLLM et Marlin.