Brian Chmiel, Maxim Fishman, Ron Banner, Daniel Soudry
개요
본 논문은 최초로 가중치, 활성화 함수, 그리고 기울기 모두에 4비트 부동소수점(FP4) 정밀도를 주로 사용하여 대규모 언어 모델(LLM)의 완전 양자화 학습(FQT)을 시연합니다. 2000억 토큰까지의 데이터셋을 사용하여 블록 크기, 스케일링 형식, 반올림 방법 등 FP4에 대한 주요 설계 선택 사항을 광범위하게 조사했습니다. 분석 결과 16개의 FP4 값(E2M1) 블록이 E4M3으로 표현된 스케일을 공유하는 NVFP4 형식이 최적의 결과를 제공하는 것으로 나타났습니다. 역전파와 업데이트 패스에는 확률적 반올림을, 순전파에는 최근접 반올림을 사용하여 안정성을 높였습니다. 또한, 효과적인 양자화 학습에 대한 이론적 및 경험적 임계값을 확인했습니다. 기울기 놈이 양자화 노이즈의 약 $\sqrt{3}$배 미만으로 떨어지면 양자화 학습의 효율성이 떨어집니다. 이러한 통찰력을 활용하여 256개의 Intel Gaudi2 가속기를 사용하여 70억 매개변수 모델을 성공적으로 학습했습니다. 결과적으로 FP4로 학습된 모델은 표준 BF16 기준과 비교할 만한 하위 작업 성능을 달성하여 FP4 학습이 대규모 LLM 학습에 대한 실용적이고 매우 효율적인 접근 방식임을 확인했습니다. 참조 구현은 https://github.com/Anonymous1252022/fp4-all-the-way 에서 제공됩니다.