Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Los transformadores de una capa son demostrablemente óptimos para el razonamiento en contexto y el aprendizaje de asociación distributiva en tareas de predicción del siguiente token

Created by
  • Haebom

Autor

Quan Nguyen, Thanh Nguyen-Tang

Describir

Este artículo estudia el comportamiento de aproximación y convergencia de transformadores monocapa para la predicción del siguiente token en entornos ruidosos y sin ruido. Los resultados teóricos previos se han centrado en comprender el comportamiento de inferencia en situaciones donde el primer paso de gradiente o el número de muestras es infinito. Además, su velocidad de convergencia y capacidad de generalización siguen siendo desconocidas. Este estudio aborda esta brecha al demostrar la existencia de una clase de transformadores monocapa demostrablemente bayesiano-óptimos utilizando atención lineal y ReLU. Cuando se entrena utilizando descenso de gradiente, este estudio demuestra a través del análisis de muestras finitas que la pérdida esperada de estos transformadores converge linealmente al riesgo bayesiano. Además, demostramos que los modelos entrenados se generalizan bien a muestras no vistas y exhiben comportamientos de aprendizaje observados empíricamente en estudios previos. Estos hallazgos teóricos están respaldados por una extensa validación experimental.

Takeaways, Limitations

Takeaways:
Se demuestra la optimalidad bayesiana de los transformadores de una sola capa bajo atención lineal y ReLU.
El análisis de muestras finitas demuestra que la pérdida esperada de un transformador de una sola capa converge linealmente al riesgo bayesiano.
Explicación teórica de la capacidad de generalización de los modelos entrenados y del comportamiento de aprendizaje observado empíricamente.
Limitations:
El análisis se limita a transformadores monocapa. La generalización a transformadores multicapa requiere mayor investigación.
Dado que este análisis es para una clase específica de transformadores de una sola capa, no está claro si es aplicable a todos los transformadores de una sola capa.
Los resultados de la verificación experimental respaldan los resultados teóricos, pero no garantizan el rendimiento en aplicaciones prácticas.
👍