Cet article soutient théoriquement l'idée selon laquelle les modèles de langage peuvent décoder les prédictions de chiffres en chaînes pour l'analyse de régression, et explore l'utilisation d'un modèle de décodage de séquence causale comme tête de régression de chiffres pour diverses représentations de caractéristiques. Bien qu'entraînée selon une approche courante de prédiction du prochain jeton par perte d'entropie croisée, nous constatons que la tête basée sur le décodeur est aussi performante qu'une tête ponctuelle standard pour les tâches de régression standard et présente la flexibilité nécessaire pour capturer des distributions de chiffres lisses, telles que l'estimation de densité.