Cet article aborde la question de la production d'une sortie structurée par un modèle de langage à grande échelle (LLM) respectant des règles syntaxiques précises, telles que des fragments de code ou des données formatées. Le décodage par contraintes grammaticales (GCD) garantit la conformité de la sortie LLM à ces règles en masquant les tokens qui conduiraient à une sortie n'appartenant pas à une grammaire a-contextuelle (CFG) donnée. Les algorithmes PGCD existants doivent calculer l'alignement des tokenizers de sous-mots LLM avec les tokens d'une CFG donnée pour garantir la fiabilité, et calculer les masques de tokens à partir de ces informations, ce qui est très inefficace. Cet article présente un nouvel algorithme PGCD et son implémentation, qui permet un prétraitement hors ligne 17,71 fois plus rapide que les approches existantes, tout en conservant l'efficacité de pointe du calcul de masques en ligne.