Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Kourkoutas-Beta : un optimiseur Adam piloté par Sunspike avec une touche désertique

Created by
  • Haebom

Auteur

Stavros C. Kassinos

Contour

Cet article se concentre sur l'utilisation des réseaux de neurones transformateurs dans les modèles de substitution d'équations aux dérivées partielles (EDP) pilotés par les données, où les échantillons d'apprentissage issus de limites et de conditions initiales fluctuantes entraînent des pertes irrégulières et des gradients prononcés, et dans les réseaux de neurones physico-informatiques (PINN), où les pertes composées importantes amplifient ces effets. Pour résoudre ce problème, nous proposons Kourkoutas-Beta, un optimiseur de type Adam qui remplace le taux d'actualisation fixe au second moment β₂ par une valeur dynamique couche par couche déterminée par un rapport « sunspike » borné, c'est-à-dire le rapport entre la norme actuelle du gradient groupé et la moyenne mobile exponentielle (EMA) des normes passées. Les pics poussent β₂ vers le bas, vers β₂_min, tandis que les phases stables le maintiennent près de β₂_max. Les options incluent Leaky-AMSGrad (atténuation), l'écrêtage de la région de confiance (max_ratio), le réglage fin adaptatif et plusieurs modes de correction de biais (« aucun », « beta2max » et « exact »). Nous testons Kourkoutas-Beta sur quatre configurations différentes : Heat2D (un modèle de substitution pour l'EDP du transformateur), Heat3D (un PINN de conduction thermique 3D), une tâche de synthèse MLX légère avec tremblements et rafales de déclenchement rares, et un transformateur au niveau des caractères utilisant le jeu de données enwik8 de 30 Mo. Nous démontrons qu'il améliore la stabilité et la perte finale par rapport à Adam β₂ fixe. En particulier, sur small-enwik8, il montre une réduction du nombre de bits par caractère d'environ 38 % par rapport à Adam-0,95 et d'environ 58 % par rapport à Adam-0,999. Kourkoutas-Beta est une méthode prête à l'emploi qui améliore la robustesse sous des gradients raides tout en maintenant les garanties de convergence de type Adam.

Takeaways, Limitations_

Takeaways:
Une nouvelle technique d’optimisation est présentée, efficace pour résoudre les problèmes de physique basés sur les transformateurs souffrant de problèmes de pente raide.
Amélioration de la stabilité et des performances de l'optimiseur Adam.
Des améliorations de performances ont été observées sur divers problèmes (substitut PDE, PINN, tâches de synthèse, modèles de langage).
Il peut être utilisé comme un remplacement direct de l'Adam existant, et la surcharge d'exécution est minime.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la technique d’optimisation proposée.
Des analyses plus approfondies sont nécessaires sur divers réglages d’hyperparamètres.
Une vérification de l’applicabilité pour des problèmes physiques plus complexes et à grande échelle est nécessaire.
Il est nécessaire d’analyser les changements de performances lorsque les paramètres d’hyperparamètres optimisés pour un problème spécifique sont appliqués à d’autres problèmes.
👍