Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Tri-Accel: Optimización de memoria elástica, adaptativa y con precisión consciente de la curvatura para un uso eficiente de la GPU

Created by
  • Haebom

Autor

Mohsen Sheibanian, Pouya Shaeri, Alimohammad Beigi, Ryan T. Woo, Aryan Keluskar

Describir

Este artículo presenta un marco de optimización unificado denominado Tri-Accel. Tri-Accel adapta conjuntamente tres estrategias de aceleración y parámetros adaptativos durante el entrenamiento. Estas estrategias son: Actualizaciones Adaptativas de Precisión, que asigna dinámicamente niveles de precisión mixtos según la curvatura y la varianza del gradiente; Señales Dispersas de Segundo Orden, que aprovecha los patrones dispersos Hessianos/Fisher para guiar las decisiones sobre precisión y tamaño de paso; y Escalado Elástico de Lotes en Memoria, que ajusta el tamaño de los lotes en tiempo real según la disponibilidad de VRAM. En experimentos con CIFAR-10 utilizando ResNet-18 y EfficientNet-B0, Tri-Accel reduce el tiempo de entrenamiento hasta en un 9,9 % y el uso de memoria en un 13,3 %, a la vez que mejora la precisión en un +1,1 % con respecto a la línea base de FP32. Tri-Accel se implementa mediante un kernel Triton personalizado, lo que permite la optimización automática sin ajuste manual de hiperparámetros mediante la adaptación basada en hardware.

Takeaways, Limitations

Takeaways:
Presentamos un marco de entrenamiento de redes neuronales eficiente que mejora la precisión al mismo tiempo que reduce el tiempo de entrenamiento y el uso de memoria.
El aprendizaje adaptativo mejora gradualmente la eficiencia durante el proceso de entrenamiento.
La adaptación al hardware permite la optimización automática en diversos entornos.
Abre el camino para un entrenamiento de redes neuronales más eficiente en dispositivos perimetrales e implementaciones en la nube sensibles a los costos.
Limitations:
Los experimentos presentados se limitan al conjunto de datos CIFAR-10/100 y a una arquitectura de red específica. Se requieren experimentos adicionales con una mayor variedad de conjuntos de datos y arquitecturas de red.
Se necesitan más investigaciones para determinar si las mejoras de rendimiento de Tri-Accel son consistentes en todos los casos.
Dado que utiliza el kernel Triton, podría depender de entornos de hardware específicos. Es necesario revisar su portabilidad a otras plataformas de hardware.
👍