본 논문은 대규모 언어 모델(LLM) 사전 훈련의 높은 계산 비용을 줄이기 위해 감소된 정밀도 부동 소수점 표현(FP8)을 사용하는 것에 대한 연구를 다룹니다. 최근 가속기에서 BF16이 표준으로 자리 잡았지만, FP8의 효율성과 안정성에 대한 의문이 제기됩니다. 논문에서는 FP8 훈련의 안정성을 다양한 랜덤 시드, 학습률, 데이터셋에 걸쳐 평가하는 새로운 기법과, 자기회귀 언어 모델의 손실 지형 날카로움을 정량화하는 새로운 지표를 제시합니다. 부동 소수점 표현에서 비트 감소를 시뮬레이션하여 표현력과 훈련 안정성 간의 관계를 분석함으로써, 향후 연구에 도움을 줄 것을 목표로 합니다. 기존 FP8 훈련 방법이 경제적인 대안으로 사용되기에 충분히 견고하지 않다는 점을 발견하고, 높은 정밀도와 유사한 훈련 안정성과 하이퍼파라미터 민감도를 갖는 감소된 정밀도 훈련 방식의 필요성을 강조합니다.