Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

La atención como filtro adaptativo

Created by
  • Haebom

Autor

Pedro Racioppo

Describir

La Atención de Filtro Adaptativo (AFA) es un novedoso mecanismo de atención que integra directamente un modelo dinámico aprendible en el cálculo de ponderaciones de atención. En lugar de comparar directamente consultas y claves, modela la secuencia de entrada como observaciones discretas de una ecuación diferencial estocástica (EDE) lineal. Al imponer simultáneamente un modelo dinámico lineal con una matriz de estado diagonalizable y covarianza de ruido, propaga eficientemente la incertidumbre por pares utilizando una solución de forma cerrada para la ecuación diferencial de Lyapunov. La atención emerge naturalmente como una solución de máxima verosimilitud para esta EDE lineal, y las ponderaciones de atención corresponden a una reponderación robusta basada en residuos de la precisión por pares propagada. La imposición de restricciones adicionales a los valores propios de la matriz de estado produce una variante simplificada con la misma complejidad computacional y de memoria que la atención estándar. En el límite donde el ruido dinámico y de proceso desaparecen, y con una aproximación de ángulo pequeño, recupera la atención típica del producto interno.

Takeaways, Limitations

Proponiendo un nuevo mecanismo de atención, Atención de Filtro Adaptativo (AFA).
Integración de modelos dinámicos aprendibles en los cálculos de ponderación de la atención.
Modelado de la secuencia de entrada mediante SDE lineal
Existe una variante simplificada con la misma complejidad computacional y de memoria que la atención estándar.
Recuperación de la atención estándar en los extremos donde el ruido dinámico y del proceso desaparece.
👍