Sign In

Oscillation-Reduced MXFP4 Training for Vision Transformers

Created by
  • Haebom
Category
Empty

저자

Yuxiang Chen, Haocheng Xi, Jun Zhu, Jianfei Chen

개요

본 논문은 FP4 정밀도로 Transformer를 사전 훈련하는 방법의 속도 향상 가능성과 정확도 저하 문제를 다룹니다. Microscaling (MX) 데이터 형식이 FP4 형식의 표현 능력을 향상시키지만, MXFP4로 훈련 시 여전히 정확도 저하가 발생하는 문제점을 지적합니다. 이에 본 논문에서는 더욱 정확한 FP4 훈련을 위한 새로운 훈련 방법인 TetraJet을 제안합니다. MXFP4 훈련의 정확도 저하 원인을 가중치 진동 문제로 규명하고, 이를 해결하기 위해 EMA Quantizer (Q-EMA)와 Adaptive Ramping Optimizer (Q-Ramping)라는 두 가지 새로운 방법을 제시합니다. Vision Transformer를 이용한 광범위한 실험을 통해 TetraJet이 기존 4-bit 훈련 방법보다 우수하며, Q-EMA와 Q-Ramping이 진동을 효과적으로 줄여 추가적인 성능 향상을 제공함을 보여줍니다. 기준 방법 대비 정확도 저하를 50% 이상 감소시켰으며, 심지어 전정밀도 훈련과 비슷한 성능을 달성하기도 했습니다.

시사점, 한계점

시사점:
FP4 정밀도에서 Transformer 사전 훈련의 속도 향상과 정확도 저하 문제에 대한 새로운 해결책 제시
MXFP4 훈련의 정확도 저하 원인을 가중치 진동 문제로 규명
가중치 진동 문제 해결을 위한 효과적인 방법인 Q-EMA와 Q-Ramping 제시
기존 4-bit 훈련 방법 대비 성능 향상 및 전정밀도 훈련과의 경쟁력 있는 성능 달성
오픈소스 코드 공개를 통한 연구 재현성 및 확장성 확보
한계점:
현재는 Vision Transformer에 대한 실험 결과만 제시되어 다른 모델 아키텍처에 대한 일반화 가능성 검증 필요
Q-EMA와 Q-Ramping의 매개변수 최적화에 대한 추가 연구 필요
실제 응용 환경에서의 성능 평가 및 에너지 효율 분석 추가 필요
👍