Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

La atención de Softplus con reponderación mejora la extrapolación de longitud en modelos de lenguaje grandes

Created by
  • Haebom

Autor

Bo Gao, Michael W. Spratling

Describir

Este artículo propone un nuevo mecanismo de atención para abordar la inestabilidad numérica y la degradación del rendimiento de la atención softmax convencional con tokens de inferencia de gran longitud. Descomponemos la operación softmax en una transformación positiva no lineal y pasos de regularización $l_1$, demostrando que la regularización $l_1$ es esencial para mantener el rendimiento del modelo. En el primer paso, introducimos una función de activación softplus numéricamente estable en lugar de una función exponencial y un factor de escala dinámico basado en la entropía invariante, superando así la atención softmax convencional. En el segundo paso, introducimos un mecanismo de reponderación que afina la distribución de la atención, amplificando los pesos importantes y disminuyendo los débiles para centrar la atención de forma más eficaz en los tokens relevantes. La combinación de estos dos enfoques garantiza la estabilidad numérica y logra excelentes resultados en tareas de extracción de contexto extensas y en benchmarks estándar posteriores, a la vez que mantiene una pérdida de validación casi constante incluso con una longitud de entrenamiento 16 veces mayor y mejora drásticamente el rendimiento de la extrapolación de longitudes.

Takeaways, Limitations

Takeaways:
Se presenta una solución efectiva a la inestabilidad numérica y al bajo rendimiento en el procesamiento de contexto largo de la atención softmax.
Mejora del rendimiento del mecanismo de atención a través de la función de activación suave-más, un factor de escala dinámico y un mecanismo de reponderación.
Consiga un rendimiento excelente en tareas de extracción de contexto largas y evaluaciones comparativas posteriores.
Mantiene un rendimiento estable incluso en contextos 16 veces más largos que la duración del aprendizaje.
Limitations:
Puede que falte un análisis de la complejidad computacional del método propuesto.
Tal vez se necesiten más resultados experimentales sobre distintos tipos de conjuntos de datos de contexto largos.
Es posible que se necesiten más investigaciones para determinar el rendimiento de generalización del método propuesto.
👍