En este artículo, proponemos StagFormer (Transformador Escalonado), una arquitectura novedosa para paralelizar el proceso de decodificación de modelos de lenguaje basados en Transformers. A diferencia del enfoque de decodificación secuencial de los Transformers convencionales, StagFormer escalona la ejecución a lo largo del eje de secuencia, paralelizando el proceso de decodificación a lo largo de la profundidad del modelo. Esto se logra al deshabilitar la representación de tokens en el i-ésimo paso de tiempo de la capa l, dejándola de depender únicamente de las representaciones de tokens hasta el i-ésimo paso de tiempo de la capa l-1, y en su lugar, confiando únicamente en las representaciones de tokens hasta el i-1-ésimo paso de tiempo. Esto permite la ejecución en paralelo de diferentes secciones del modelo, mejorando así la velocidad de decodificación y manteniendo la calidad. También exploramos diversas extensiones, como la compartición de pesos, la atención limitada a la ventana, las extensiones multisección y la aproximación recurrente del modelo.