Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Oscillation-Reduced MXFP4 Training for Vision Transformers

Created by
  • Haebom

저자

Yuxiang Chen, Haocheng Xi, Jun Zhu, Jianfei Chen

개요

본 논문은 FP4 정밀도로 Transformer를 사전 훈련하는 방법의 속도 향상 가능성에 주목하지만, 정확도 저하 문제를 해결하기 위해 TetraJet이라는 새로운 훈련 방법을 제안합니다. 기존의 MXFP4 데이터 형식을 사용한 훈련에서 발생하는 정확도 저하의 주요 원인으로 가중치 진동 문제를 규명하고, 이를 해결하기 위해 EMA Quantizer (Q-EMA)와 Adaptive Ramping Optimizer (Q-Ramping)라는 두 가지 새로운 방법을 제시합니다. Vision Transformers에 대한 광범위한 실험을 통해 기존의 4-bit 훈련 방법보다 우수한 성능을 보이며, 기준 모델 대비 정확도 저하를 50% 이상 감소시키고, 심지어는 전 정밀도 훈련과 비교해도 경쟁력 있는 성능을 달성함을 보여줍니다.

시사점, 한계점

시사점:
FP4 정밀도 훈련에서 발생하는 정확도 저하 문제의 원인을 체계적으로 분석하고 해결책을 제시함.
Q-EMA와 Q-Ramping을 통해 가중치 진동 문제를 효과적으로 완화하여 정확도를 향상시킴.
기존 4-bit 훈련 방법 대비 우수한 성능과 전 정밀도 훈련과의 경쟁력 있는 성능을 달성함.
MXFP4 데이터 형식을 활용한 효율적인 훈련 방법을 제시함.
한계점:
현재는 Vision Transformers에 대한 실험 결과만 제시되어 다른 모델 아키텍처에 대한 일반화 가능성은 추가 연구가 필요함.
제시된 방법의 효과가 특정 하드웨어(Blackwell GPU)에 의존적일 가능성이 있음.
더욱 다양하고 복잡한 모델 및 데이터셋에 대한 실험이 필요함.
👍