En este artículo, demostramos que un Transformador evaluado a una profundidad fija tiene una capacidad expresiva limitada a la clase de circuito TC0 y proponemos un enfoque novedoso para mejorar la capacidad expresiva del Transformador del codificador, en lugar de un enfoque autorregresivo, para superar esta limitación. Mientras que los enfoques autorregresivos existentes (predicción del siguiente token, razonamiento en cadena de pensamiento) se basan en un bucle de retroalimentación que decodifica y recodifica estados intermedios en tokens, el Transformador SELF propuesto en este artículo refina iterativamente los pesos de atención dentro de la capa del codificador hasta un punto fijo, ajustando así el cálculo en tiempo de prueba según la dificultad de entrada. Esto se logra actualizando iterativamente la matriz de alineación internamente, en lugar de generar una matriz de alineación que mezcle secuencias de entrada en una sola pasada. Como resultado, logramos una mejora de la precisión de hasta un 20 % en las pruebas de referencia de estilo codificador sin aumentar el número de parámetros, y demostramos que la alineación adaptativa a la entrada proporciona beneficios significativos en tiempo de prueba con un pequeño coste computacional adicional. De esta forma, el SELF-Transformer recupera significativamente el poder expresivo del razonamiento recurrente manteniendo la simplicidad de una arquitectura de codificador puro.