FP8-Flow-MoE는 대규모 Mixture-of-Experts (MoE) 모델 훈련의 계산 및 메모리 요구 사항을 해결하기 위해 제안된 FP8 훈련 레시피입니다. 이 레시피는 양자화 일관된 FP8 중심 데이터 흐름, 스케일링 인식 전치, 융합 FP8 연산자를 특징으로 하며, 명시적 캐스트 연산 수를 줄여 계산을 간소화합니다. 671B-parameter MoE 모델에 대한 평가 결과, BF16 및 단순 FP8 baseline에 비해 최대 21% 높은 처리량과 GPU당 16.5GB 낮은 메모리 사용량을 보이며, 안정적인 수렴을 유지합니다. TransformerEngine 및 Megatron-LM과 호환되는 플러그 앤 플레이 FP8 레시피를 제공하며, 곧 공개될 예정입니다.