본 논문은 저정밀도(low-precision) 형식으로 트랜스포머 모델을 훈련할 때 발생하는 훈련 불안정성에 대한 기계적 설명을 제공한다. 특히, 플래시 어텐션(flash attention)을 사용하는 저정밀도 환경에서 발생하는 손실 폭발(loss explosion) 현상의 원인을 분석한다. 연구 결과, 이는 어텐션 메커니즘 내에서 유사한 저랭크(low-rank) 표현의 출현과 저정밀도 산술 연산의 편향된 반올림 오류가 복합적으로 작용하여 발생한다는 것을 밝혀냈다. 이러한 요인들이 오류 축적의 악순환을 일으켜 가중치 업데이트를 손상시키고 훈련 역학을 무너뜨린다는 것이다. 또한, 이러한 분석을 바탕으로 반올림 오류의 편향을 완화하는 플래시 어텐션의 간단한 수정 사항을 제시하고, 이를 통해 훈련 과정을 안정화시킬 수 있음을 확인했다.