Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Hacia arquitecturas neuronales distribuidas

Created by
  • Haebom

Autor

Aditya Cowsik, Tianyu He, Andrey Gromov

Describir

Este artículo presenta un método para introducir y entrenar una arquitectura de red neuronal distribuida (DNA) en los dominios de visión y lenguaje. DNA se inicializa como una protoarquitectura que consiste en módulos tales como transformadores, MLPs, atención y enrutadores. Un token (o parche) puede pasar a través de una serie arbitraria de módulos en cualquier orden. DNA es una generalización natural de métodos dispersos tales como Mixture-of-Experts, Mixture-of-Depths y compartición de parámetros. Los patrones de computación y comunicación de los módulos DNA se aprenden de extremo a extremo durante el entrenamiento y dependen del contenido y contexto de cada token (o parche). Estos patrones pueden ser moldeados por requisitos adicionales para objetivos de optimización tales como eficiencia de computación/memoria o distribución de carga. Experimentalmente, demostramos que el DNA entrenado es competitivo con modelos de línea base densos en ambos dominios, y puede aprender eficiencia computacional/compartición de parámetros de los datos. Además, al analizar la conectividad de emergencia y los patrones computacionales del ADN entrenado, observamos que las rutas que siguen los tokens a través del modelo se distribuyen según una ley de potencia y mostramos que algunas rutas (o, equivalentemente, grupos de módulos) presentan especialización de emergencia. Finalmente, demostramos que el modelo aprende a asignar cálculos y parámetros de activación de forma interpretable.

Takeaways, Limitations

Takeaways:
Presentamos una estructura generalizada para modelos dispersos a través de una arquitectura de red neuronal distribuida (DNA) y demostramos que se puede lograr eficiencia computacional y compartición de parámetros a través de ella.
Demostramos que los patrones computacionales y de comunicación del ADN pueden aprenderse a partir de datos y moldearse según objetivos de optimización.
Descubrimos que la conectividad y los patrones computacionales que surgen del ADN entrenado siguen una distribución de ley de potencia, lo que revela la especialización de los grupos de módulos.
Nos aseguramos de que el modelo aprenda a asignar parámetros computacionales y de activación de una manera interpretable.
Logra un rendimiento competitivo con modelos de línea base densos en los dominios de la visión y el lenguaje.
Limitations:
Se necesitan más estudios para investigar la escalabilidad general de la arquitectura de ADN propuesta y su aplicabilidad a diversas tareas.
Se necesita un análisis más profundo de la complejidad del proceso de entrenamiento del ADN y de la estabilidad del entrenamiento.
Se necesita una investigación en profundidad sobre estrategias de optimización de arquitecturas de ADN para tareas o conjuntos de datos específicos.
Falta de explicación teórica de la distribución de la ley de potencia y del mecanismo de especialización emergente.
👍