Este artículo se centra en el uso de redes neuronales de transformadores en modelos de sustitución de ecuaciones diferenciales parciales (EDP) basados en datos, donde las muestras de entrenamiento con límites fluctuantes y condiciones iniciales generan pérdidas irregulares y gradientes pronunciados, y en redes neuronales físicamente informáticas (PINN), donde las pérdidas compuestas rígidas amplifican estos efectos. Para abordar esto, proponemos Kourkoutas-Beta, un optimizador de tipo Adam que reemplaza la tasa de descuento fija de segundo momento β₂ por un valor dinámico capa por capa determinado por una razón de "picos solares" acotada, la razón entre la norma de gradiente agrupada actual y la media móvil exponencial (EMA) de normas pasadas. Los picos empujan β₂ hacia β₂_mín, mientras que las fases estables lo mantienen cerca de β₂_máx. Las opciones incluyen Leaky-AMSGrad (atenuación), recorte de la región de confianza (ratio máximo), ajuste fino adaptativo y varios modos de corrección de sesgo ("ninguno", "beta2máx" y "exacto"). Probamos Kourkoutas-Beta en cuatro configuraciones diferentes: Heat2D (un modelo sustituto para la EDP del Transformador), Heat3D (un PINN de conducción térmica 3D), una tarea de síntesis MLX ligera con vibración y ráfagas de disparo poco frecuentes, y un transformador a nivel de carácter utilizando el conjunto de datos enwik8 de 30 MB. Demostramos que mejora la estabilidad y la pérdida final en comparación con Adam β₂ fijo. En particular, en enwik8 pequeño, muestra una reducción de bits por carácter de aproximadamente el 38 % en comparación con Adam-0.95 y de aproximadamente el 58 % en comparación con Adam-0.999. Kourkoutas-Beta es un método de instalación directa que mejora la robustez bajo gradientes pronunciados, manteniendo las garantías de convergencia de tipo Adam.