INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats
Created by
Haebom
Category
Empty
저자
Mengzhao Chen, Meng Wu, Hui Jin, Zhihang Yuan, Jing Liu, Chaoyi Zhang, Yunshui Li, Jie Huang, Jin Ma, Zeyue Xue, Zhiheng Liu, Xingyan Bin, Ping Luo
개요
본 논문은 대규모 언어 모델(LLM)에서 활성 값 이상치 처리를 위해 저정밀 부동 소수점(FP) 형식을 사용하는 최신 AI 하드웨어의 추세에도 불구하고, 다양한 세분성 수준에서 FP 및 정수(INT) 양자화를 통일적으로 비교하는 연구가 부족하다는 점을 지적한다. 본 연구는 FP와 INT 형식 간의 절충점을 체계적으로 조사하여 이 격차를 채운다.
시사점, 한계점
•
FP는 조립도 양자화에서 우수하지만, 세분화된(블록 단위) 수준에서는 비교가 더 미묘하다.
•
8비트 세분화 형식(예: 블록 크기 32의 MX)의 경우, MXINT8이 알고리즘 정확도와 하드웨어 효율성 모두에서 FP보다 우수하다.
•
4비트 형식의 경우 FP가 정확도 면에서 이점을 갖지만, Hadamard 회전과 같은 이상치 완화 기술을 적용하면 NVINT4가 NVFP4를 능가할 수 있다.
•
MXINT8 훈련에 대해 거의 무손실 성능을 가능하게 하는, 세분화된 저비트 INT 훈련에서 기울기 바이어스를 해결하는 대칭 클리핑 방법을 제안한다.
•
FP 일괄 접근 방식은 최적이 아니며, MXINT8과 같은 세분화된 INT 형식이 미래 AI 가속기에 더 나은 균형을 제공한다.