Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

De picos a colas pesadas: Desvelando la evolución espectral de las redes neuronales

Created by
  • Haebom

Autor

Vignesh Kothapalli, Tianyu Pang, Shenyang Deng, Zongmin Liu, Yaoqing Yang

Describir

Este artículo aborda la tendencia de las redes neuronales profundas (DNN) modernas a inducir densidad espectral empírica (ESD) de colas pesadas (HT) en los pesos de capa. Si bien estudios previos han demostrado que el fenómeno de HT se correlaciona con una buena generalización en redes neuronales de gran escala, aún no existe una explicación teórica para su ocurrencia. En particular, comprender las condiciones que desencadenan este fenómeno podría ayudar a dilucidar la interacción entre la generalización y la densidad espectral de pesos. Este estudio busca subsanar esta deficiencia presentando un entorno simple y rico para modelar la aparición de ESD de HT. Específicamente, presentamos un entorno basado en la teoría que "crea" colas pesadas en ESD en redes neuronales de dos capas y proporcionamos un análisis sistemático de la aparición de ESD de HT sin ruido de gradiente. Este es el primer estudio que analiza entornos sin ruido e incorpora tasas de aprendizaje (altas) dependientes del optimizador (GD/Adam) en el análisis de ESD de HT. Nuestros resultados destacan el papel de las tasas de aprendizaje en las primeras etapas del entrenamiento para las formas de ESD Bulk+Spike y HT, lo que puede promover la generalización en redes neuronales de dos capas. Estas observaciones, aunque realizadas en una configuración mucho más simple, ofrecen información sobre el comportamiento de las redes neuronales a gran escala.

Takeaways, Limitations

Takeaways:
Proporcionamos una comprensión teórica del surgimiento de ESD de cola pesada en NN de dos capas.
Analizamos por primera vez la aparición de ESD HT en un entorno libre de ruido.
Revelamos el efecto de la tasa de aprendizaje en la forma y generalización de ESD.
Proporciona información sobre el comportamiento de las redes neuronales a gran escala.
Limitations:
El análisis se limita a NN de dos capas.
Es posible que no capture completamente la complejidad de las redes neuronales a gran escala del mundo real.
La generalización a otras estrategias de entrenamiento o estructuras de red puede ser limitada.
👍