MOSS: Efficient and Accurate FP8 LLM Training with Microscaling and Automatic Scaling
Created by
Haebom
Category
Empty
저자
Yu Zhang, Hui-Ling Zhen, Mingxuan Yuan, Bei Yu
개요
MOSS는 FP8 형식으로 대규모 언어 모델을 훈련할 때 효율성과 수치적 안정성을 보장하는 새로운 프레임워크입니다. MOSS는 민감한 활성화를 위한 두 단계의 마이크로 스케일링 전략과 선형 레이어의 가중치에 대한 자동 스케일링을 도입합니다. 이를 통해 70억 개의 파라미터를 가진 모델의 FP8 훈련을 BF16 기준선과 유사한 성능으로 효율적으로 수행하면서 최대 34% 더 높은 훈련 처리량을 달성합니다.
시사점, 한계점
•
시사점:
◦
FP8 훈련의 효율성을 극대화하여 훈련 처리량 향상 (최대 34%).
◦
BF16과 유사한 수준의 모델 성능 달성.
◦
수치적 안정성을 확보하면서 FP8 훈련의 어려움 극복.
•
한계점:
◦
70억 파라미터 모델에 대한 실험 결과만 제시되어, 더 큰 규모의 모델에 대한 확장성 검증 필요.