Cet article étudie le comportement d'approximation et de convergence des transformateurs monocouches pour la prédiction du prochain jeton dans des environnements bruités et sans bruit. Les résultats théoriques précédents se sont concentrés sur la compréhension du comportement d'inférence dans des situations où le premier pas de gradient ou le nombre d'échantillons est infini. De plus, leur vitesse de convergence et leur capacité de généralisation restent inconnues. Cette étude comble cette lacune en démontrant l'existence d'une classe de transformateurs monocouches prouvablement optimaux selon Bayes, utilisant l'attention linéaire et ReLU. Après apprentissage par descente de gradient, cette étude démontre, par une analyse sur échantillons finis, que la perte attendue de ces transformateurs converge linéairement vers le risque bayésien. De plus, nous démontrons que les modèles entraînés se généralisent bien à des échantillons non observés et présentent des comportements d'apprentissage observés empiriquement dans des études précédentes. Ces résultats théoriques sont étayés par une validation expérimentale approfondie.