Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Ampliación de redes de resistencia líquida y capacitancia líquida para un modelado de secuencias eficiente

Created by
  • Haebom

Autor

Mónika Farsang, Ramin Hasani, Daniela Rus, Radu Grosu

Describir

LrcSSM es un modelo recurrente no lineal que procesa secuencias largas a la velocidad de las jerarquías lineales convencionales en el espacio de estados. Al restringir la matriz de transición de estados a diagonal y aprenderla en cada paso, podemos procesar la secuencia completa en paralelo utilizando un único prefijo-escaneo. Esto logra una complejidad de tiempo y memoria de $\mathcal{O}(TD)$ y una profundidad secuencial de $\mathcal{O}(\log T)$ para la longitud de secuencia de entrada T y la dimensión de estado D. También proporciona garantías formales de estabilidad de gradiente, a diferencia de otros sistemas variacionales de entrada como Liquid-S4 o Mamba. Con costos de propagación hacia adelante y hacia atrás de $\Theta(T D L)$ FLOP para la profundidad de red L, y una profundidad secuencial y un número de parámetros bajos de $\Theta(D L)$, sigue el régimen de ley de escalamiento computacionalmente óptimo observado recientemente en Mamba ($\beta \approx 0.42$). Supera al Transformador de Atención Cuadrática con los mismos requisitos computacionales y evita la sobrecarga de memoria de las convoluciones largas basadas en FFT. En una serie de tareas de predicción a largo plazo, LrcSSM supera a LRU, S5 y Mamba.

Takeaways, Limitations

Takeaways:
Presentamos un modelo recurrente no lineal que procesa secuencias largas rápidamente.
Alcanza una complejidad de tiempo y memoria de $\mathcal{O}(TD)$ y una profundidad secuencial de $\mathcal{O}(\log T)$.
Proporciona garantías formales de estabilidad de taludes.
Sigue el régimen de la ley de escalamiento óptimo computacional y supera al transformador de atención cuadrática con la misma cantidad de cálculo.
Supera a los modelos existentes en tareas de predicción a largo plazo.
Limitations:
El __T600_____ mencionado en el artículo no se menciona explícitamente. Podrían requerirse experimentos y análisis adicionales para una evaluación más exhaustiva.
👍