Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FP4 All the Way: Fully Quantized Training of LLMs

Created by
  • Haebom

저자

Brian Chmiel, Maxim Fishman, Ron Banner, Daniel Soudry

개요

본 논문은 최초로 가중치, 활성화 함수, 기울기 모두에 주로 4비트 부동소수점(FP4) 정밀도를 사용하여 2000억 토큰까지의 데이터셋을 대상으로 대규모 언어 모델(LLM)의 완전 양자화 훈련(FQT)을 시연합니다. 블록 크기, 스케일링 형식, 반올림 방법 등 FP4에 대한 주요 설계 선택 사항을 광범위하게 조사하여 16개의 FP4 값(E2M1) 블록이 E4M3으로 표현된 스케일을 공유하는 NVFP4 형식이 최적의 결과를 제공함을 보여줍니다. 역전파 및 업데이트 단계에는 확률적 반올림을, 순전파에는 가장 가까운 값으로 반올림하여 안정성을 높였습니다. 또한, 기울기 노름이 양자화 잡음의 약 $\sqrt{3}$ 배 이하로 떨어지면 양자화 훈련의 효과가 감소하는 이론적 및 실험적 임계값을 확인했습니다. 이러한 통찰력을 활용하여 256개의 Intel Gaudi2 가속기를 사용하여 70억 매개변수 모델을 성공적으로 훈련했습니다. 결과적으로 FP4로 훈련된 모델은 표준 BF16 기준과 비슷한 하위 작업 성능을 달성하여 FP4 훈련이 대규모 LLM 훈련에 대한 실용적이고 매우 효율적인 접근 방식임을 확인했습니다. 레퍼런스 구현은 https://github.com/Anonymous1252022/fp4-all-the-way 에서 제공됩니다.

시사점, 한계점

시사점:
대규모 언어 모델 훈련에서 FP4를 사용한 완전 양자화 훈련의 실현 가능성을 최초로 입증.
FP4 양자화 훈련을 위한 최적의 형식(NVFP4) 및 반올림 방법 제시.
양자화 훈련의 효과적인 한계점을 이론적 및 실험적으로 규명.
BF16 기준과 비슷한 성능을 달성하는 FP4 훈련된 70억 매개변수 모델 구현.
대규모 LLM 훈련의 효율성을 크게 향상시킬 수 있는 잠재력 제시.
한계점:
본 연구에서 사용된 데이터셋의 규모가 2000억 토큰으로 제한적일 수 있음.
더 큰 모델이나 더 큰 데이터셋으로 확장했을 때의 성능 및 효율성에 대한 추가적인 연구가 필요.
제공된 레퍼런스 구현의 일반성 및 재현성에 대한 검증이 필요.
$\sqrt{3}$ 배 기울기 노름 임계값의 일반화 가능성에 대한 추가 연구가 필요.
👍