Este artículo estudia el comportamiento de aproximación y convergencia de transformadores monocapa para la predicción del siguiente token en entornos ruidosos y sin ruido. Los resultados teóricos previos se han centrado en comprender el comportamiento de inferencia en situaciones donde el primer paso de gradiente o el número de muestras es infinito. Además, su velocidad de convergencia y capacidad de generalización siguen siendo desconocidas. Este estudio aborda esta brecha al demostrar la existencia de una clase de transformadores monocapa demostrablemente bayesiano-óptimos utilizando atención lineal y ReLU. Cuando se entrena utilizando descenso de gradiente, este estudio demuestra a través del análisis de muestras finitas que la pérdida esperada de estos transformadores converge linealmente al riesgo bayesiano. Además, demostramos que los modelos entrenados se generalizan bien a muestras no vistas y exhiben comportamientos de aprendizaje observados empíricamente en estudios previos. Estos hallazgos teóricos están respaldados por una extensa validación experimental.