Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Kourkoutas-Beta: Un optimizador de Adam impulsado por Sunspike con estilo desértico

Created by
  • Haebom

Autor

Stavros C. Kassinos

Describir

Este artículo se centra en el uso de redes neuronales de transformadores en modelos de sustitución de ecuaciones diferenciales parciales (EDP) basados ​​en datos, donde las muestras de entrenamiento con límites fluctuantes y condiciones iniciales generan pérdidas irregulares y gradientes pronunciados, y en redes neuronales físicamente informáticas (PINN), donde las pérdidas compuestas rígidas amplifican estos efectos. Para abordar esto, proponemos Kourkoutas-Beta, un optimizador de tipo Adam que reemplaza la tasa de descuento fija de segundo momento β₂ por un valor dinámico capa por capa determinado por una razón de "picos solares" acotada, la razón entre la norma de gradiente agrupada actual y la media móvil exponencial (EMA) de normas pasadas. Los picos empujan β₂ ​​hacia β₂_mín, mientras que las fases estables lo mantienen cerca de β₂_máx. Las opciones incluyen Leaky-AMSGrad (atenuación), recorte de la región de confianza (ratio máximo), ajuste fino adaptativo y varios modos de corrección de sesgo ("ninguno", "beta2máx" y "exacto"). Probamos Kourkoutas-Beta en cuatro configuraciones diferentes: Heat2D (un modelo sustituto para la EDP del Transformador), Heat3D (un PINN de conducción térmica 3D), una tarea de síntesis MLX ligera con vibración y ráfagas de disparo poco frecuentes, y un transformador a nivel de carácter utilizando el conjunto de datos enwik8 de 30 MB. Demostramos que mejora la estabilidad y la pérdida final en comparación con Adam β₂ fijo. En particular, en enwik8 pequeño, muestra una reducción de bits por carácter de aproximadamente el 38 % en comparación con Adam-0.95 y de aproximadamente el 58 % en comparación con Adam-0.999. Kourkoutas-Beta es un método de instalación directa que mejora la robustez bajo gradientes pronunciados, manteniendo las garantías de convergencia de tipo Adam.

Takeaways, Limitations

Takeaways:
Se presenta una nueva técnica de optimización que es eficaz para resolver problemas de física basados ​​en transformadores que presentan problemas de pendiente pronunciada.
Se mejoró la estabilidad y el rendimiento del optimizador Adam.
Se observaron mejoras en el rendimiento en varios problemas (sustituto de PDE, PINN, tareas de síntesis, modelos de lenguaje).
Se puede utilizar como reemplazo directo del Adam existente y la sobrecarga de tiempo de ejecución es mínima.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización de la técnica de optimización propuesta.
Se necesita más análisis sobre el ajuste de varios hiperparámetros.
Se necesita verificar la aplicabilidad para problemas físicos más complejos y de gran escala.
Es necesario analizar los cambios de rendimiento cuando las configuraciones de hiperparámetros optimizadas para un problema específico se aplican a otros problemas.
👍