본 논문은 변동하는 경계 및 초기 조건으로부터의 훈련 샘플이 불규칙적인 손실과 급격한 기울기를 야기하는 데이터 기반 편미분 방정식(PDE) 대체 모델과 강성 복합 손실이 이러한 효과를 증폭시키는 물리 정보 신경망(PINN)에서 트랜스포머 신경망의 사용에 초점을 맞추고 있습니다. 이를 해결하기 위해, 고정된 2차 모멘트 할인율 β₂를 계층별 동적 값으로 대체하는 Adam 스타일 최적화기인 Kourkoutas-Beta를 제안합니다. 이 동적 값은 현재 풀링된 기울기 놈과 과거 놈들의 지수 이동 평균(EMA)의 비율인 경계된 "sunspike" 비율에 의해 결정됩니다. 스파이크는 β₂를 β₂_min쪽으로 낮추고, 안정적인 단계에서는 β₂_max 근처에 유지합니다. Leaky-AMSGrad(감쇠), 신뢰 영역 클리핑(max_ratio), 적응형 미세 항, 그리고 여러 가지 바이어스 보정 모드("none", "beta2max", "exact")를 포함하는 옵션들이 제공됩니다. Heat2D(트랜스포머 PDE 대체 모델), Heat3D(3D 열 전도 PINN), 흔들림과 드문 트리거 버스트가 있는 경량 MLX 합성 작업, 그리고 30MB의 enwik8 데이터셋을 사용한 문자 수준 트랜스포머 등 네 가지 설정에서 Kourkoutas-Beta를 테스트하여 고정 β₂ Adam에 비해 안정성과 최종 손실을 개선함을 보여줍니다. 특히 small-enwik8에서는 Adam-0.95 대비 약 38%, Adam-0.999 대비 약 58%의 bits-per-character 감소를 보였습니다. Kourkoutas-Beta는 Adam 스타일의 수렴 보장을 유지하면서 급격한 기울기 하에서의 강건성을 향상시키는 드롭인 방식의 방법입니다.