Cet article se concentre sur l'utilisation des réseaux de neurones transformateurs dans les modèles de substitution d'équations aux dérivées partielles (EDP) pilotés par les données, où les échantillons d'apprentissage issus de limites et de conditions initiales fluctuantes entraînent des pertes irrégulières et des gradients prononcés, et dans les réseaux de neurones physico-informatiques (PINN), où les pertes composées importantes amplifient ces effets. Pour résoudre ce problème, nous proposons Kourkoutas-Beta, un optimiseur de type Adam qui remplace le taux d'actualisation fixe au second moment β₂ par une valeur dynamique couche par couche déterminée par un rapport « sunspike » borné, c'est-à-dire le rapport entre la norme actuelle du gradient groupé et la moyenne mobile exponentielle (EMA) des normes passées. Les pics poussent β₂ vers le bas, vers β₂_min, tandis que les phases stables le maintiennent près de β₂_max. Les options incluent Leaky-AMSGrad (atténuation), l'écrêtage de la région de confiance (max_ratio), le réglage fin adaptatif et plusieurs modes de correction de biais (« aucun », « beta2max » et « exact »). Nous testons Kourkoutas-Beta sur quatre configurations différentes : Heat2D (un modèle de substitution pour l'EDP du transformateur), Heat3D (un PINN de conduction thermique 3D), une tâche de synthèse MLX légère avec tremblements et rafales de déclenchement rares, et un transformateur au niveau des caractères utilisant le jeu de données enwik8 de 30 Mo. Nous démontrons qu'il améliore la stabilité et la perte finale par rapport à Adam β₂ fixe. En particulier, sur small-enwik8, il montre une réduction du nombre de bits par caractère d'environ 38 % par rapport à Adam-0,95 et d'environ 58 % par rapport à Adam-0,999. Kourkoutas-Beta est une méthode prête à l'emploi qui améliore la robustesse sous des gradients raides tout en maintenant les garanties de convergence de type Adam.