Sign In

Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Created by
  • Haebom
Category
Empty

μ €μž

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu Kim

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM) μΆ”λ‘  νš¨μœ¨μ„± ν–₯상을 μœ„ν•΄ μ œμ•ˆλœ 4λΉ„νŠΈ μ–‘μžν™” 포맷인 MXFP4의 정확도 격차 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. ν•˜λ“œμ›¨μ–΄ λ³€κ²½ 없이 적용 κ°€λŠ₯ν•œ 두 κ°€μ§€ μ†Œν”„νŠΈμ›¨μ–΄ 기법인 Overflow-Aware Scaling (OAS)κ³Ό Macro Block Scaling (MBS)을 μ œμ•ˆν•˜μ—¬ MXFP4의 μ–‘μžν™” 좩싀도λ₯Ό 크게 ν–₯μƒμ‹œμΌ°μŠ΅λ‹ˆλ‹€. 이λ₯Ό 톡해 MXFP4λŠ” NVIDIA의 NVFP4와 λΉ„κ΅ν•˜μ—¬ 평균 10%에 λ‹¬ν•˜λ˜ 정확도 격차λ₯Ό 1% 미만으둜 쀄이며, MXFP4의 ν•˜λ“œμ›¨μ–΄ νš¨μœ¨μ„± μž₯점을 μœ μ§€ν•˜λ©΄μ„œ NVFP4에 μ€€ν•˜λŠ” μ„±λŠ₯을 달성할 수 있게 λ˜μ—ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
MXFP4와 같은 저정밀도 ν¬λ§·μ—μ„œ λ°œμƒν•˜λŠ” μ–‘μžν™” 였λ₯˜λ₯Ό μ†Œν”„νŠΈμ›¨μ–΄ κΈ°λ²•λ§ŒμœΌλ‘œ 효과적으둜 κ°μ†Œμ‹œν‚¬ 수 μžˆμŒμ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
OAS와 MBS 기법은 LLM의 μ „λ°˜μ μΈ 정확도λ₯Ό 크게 κ°œμ„ ν•˜λ©΄μ„œλ„ μ—°μ‚° μ˜€λ²„ν—€λ“œλ₯Ό μ΅œμ†Œν™”ν•˜μ—¬ μ‹€μ œ 적용 κ°€λŠ₯성을 λ†’μ˜€μŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 기법듀이 νŠΉμ • LLM μ•„ν‚€ν…μ²˜λ‚˜ λ‹€μš΄μŠ€νŠΈλ¦Ό νƒœμŠ€ν¬μ— λŒ€ν•΄ 졜적의 μ„±λŠ₯을 보일 수 μžˆλŠ”μ§€μ— λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘