본 논문은 NVIDIA Blackwell 세대 GPU에서 도입된 Microscaling(MX) 포맷을 사용하여 모델 파라미터 및 관련 텐서를 더 적은 비트로 표현하는 기법을 다룹니다. MX 포맷은 좁은 부동 소수점 데이터 타입과 더 세분화된 블록별 스케일링 계수를 결합하여 기존 방식보다 더 많은 텐서의 양자화와 효율적인 연산 실행을 가능하게 합니다. 논문에서는 MX 포맷의 효과적인 사용을 위한 다양한 매개변수 선택에 대해 검토하고, MXFP8-E4M3 데이터 타입과 특정 변환 알고리즘을 사용하여 BF16을 사용한 학습 결과와 동일한 결과를 얻는 방법을 제시합니다. 최대 80억 개의 파라미터를 가진 모델을 최대 15조 토큰의 고품질 데이터셋으로 학습한 결과를 보여줍니다.