Este artículo propone un nuevo mecanismo de atención para abordar la inestabilidad numérica y la degradación del rendimiento de la atención softmax convencional con tokens de inferencia de gran longitud. Descomponemos la operación softmax en una transformación positiva no lineal y pasos de regularización $l_1$, demostrando que la regularización $l_1$ es esencial para mantener el rendimiento del modelo. En el primer paso, introducimos una función de activación softplus numéricamente estable en lugar de una función exponencial y un factor de escala dinámico basado en la entropía invariante, superando así la atención softmax convencional. En el segundo paso, introducimos un mecanismo de reponderación que afina la distribución de la atención, amplificando los pesos importantes y disminuyendo los débiles para centrar la atención de forma más eficaz en los tokens relevantes. La combinación de estos dos enfoques garantiza la estabilidad numérica y logra excelentes resultados en tareas de extracción de contexto extensas y en benchmarks estándar posteriores, a la vez que mantiene una pérdida de validación casi constante incluso con una longitud de entrenamiento 16 veces mayor y mejora drásticamente el rendimiento de la extrapolación de longitudes.