Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Created by

Haebom

저자

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu Kim

💡 개요

본 연구는 대규모 언어 모델(LLM) 추론 효율성 향상을 위해 제안된 4비트 양자화 포맷인 MXFP4의 정확도 격차 문제를 해결하고자 합니다. 하드웨어 변경 없이 적용 가능한 두 가지 소프트웨어 기법인 Overflow-Aware Scaling (OAS)과 Macro Block Scaling (MBS)을 제안하여 MXFP4의 양자화 충실도를 크게 향상시켰습니다. 이를 통해 MXFP4는 NVIDIA의 NVFP4와 비교하여 평균 10%에 달하던 정확도 격차를 1% 미만으로 줄이며, MXFP4의 하드웨어 효율성 장점을 유지하면서 NVFP4에 준하는 성능을 달성할 수 있게 되었습니다.

🔑 시사점 및 한계

•

MXFP4와 같은 저정밀도 포맷에서 발생하는 양자화 오류를 소프트웨어 기법만으로 효과적으로 감소시킬 수 있음을 입증했습니다.

•

OAS와 MBS 기법은 LLM의 전반적인 정확도를 크게 개선하면서도 연산 오버헤드를 최소화하여 실제 적용 가능성을 높였습니다.

•

제안된 기법들이 특정 LLM 아키텍처나 다운스트림 태스크에 대해 최적의 성능을 보일 수 있는지에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage