Sign In

TetraJet-v2: Accurate NVFP4 Training for Large Language Models with Oscillation Suppression and Outlier Control

Created by
  • Haebom
Category
Empty

저자

Yuxiang Chen, Xiaoming Xu, Pengle Zhang, Michael Beyer, Martin Rapp, Jun Zhu, Jianfei Chen

개요

본 논문은 대규모 언어 모델(LLM)의 훈련 비용 절감을 위해 4비트 완전 양자화 훈련(FQT) 방법인 TetraJet-v2를 소개한다. TetraJet-v2는 NVFP4 형식을 사용하여 모든 선형 레이어의 활성화, 가중치 및 기울기를 4비트로 양자화한다. 논문은 낮은 정밀도 LLM 훈련의 주요 문제점인 가중치 진동과 이상치를 해결하기 위해, 1) NVFP4 선형 레이어에 대한 편향되지 않은 이중 블록 양자화 방법, 2) 가중치 진동 억제를 위한 OsciReset 알고리즘, 3) 이상치 정확도 유지를 위한 OutControl 알고리즘을 제안한다. TetraJet-v2는 최대 370M 모델 크기 및 200B 토큰 데이터 크기에서 이전 FP4 훈련 방법보다 일관되게 우수한 성능을 보이며, full-precision 훈련과의 성능 격차를 평균 51.3% 감소시킨다.

시사점, 한계점

시사점:
4비트 FQT 방법인 TetraJet-v2는 LLM 훈련 비용을 절감할 수 있는 새로운 접근 방식을 제시한다.
NVFP4 형식을 활용하여 효율성을 높였다.
가중치 진동 및 이상치 문제를 해결하기 위한 구체적인 알고리즘(OsciReset, OutControl)을 제시하여 4비트 훈련의 성능을 향상시켰다.
다양한 모델 크기 및 데이터 크기에서 이전 FP4 방법보다 우수한 성능을 입증했다.
한계점:
최대 370M 모델 크기까지의 성능만 평가되었으며, 더 큰 모델에 대한 확장성 검증이 필요하다.
200B 토큰 데이터 크기까지만 테스트되었으므로, 더 큰 데이터셋에 대한 성능 확인이 필요하다.
full-precision 훈련과의 성능 격차를 51.3% 감소시켰지만, 완전히 극복하지는 못했다.
👍