Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AMXFP4: Taming Activation Outliers with Asymmetric Microscaling Floating-Point for 4-bit LLM Inference

Created by
  • Haebom

저자

Janghwan Lee, Jiwoong Park, Jinseok Kim, Yongjik Kim, Jungju Oh, Jinwook Oh, Jungwook Choi

개요

본 논문은 대규모 언어 모델(LLM)의 추론 효율을 높이기 위해 정밀도를 낮추는 과정에서 발생하는 정확도 저하 문제를 해결하는 새로운 4비트 부동소수점 형식인 AMXFP4를 제안합니다. 기존의 MXFP4 형식은 활성화 값의 이상치를 억제하지만, 그룹 간 비대칭성이 증가하는 단점이 있습니다. AMXFP4는 비대칭 공유 스케일을 사용하여 이러한 문제를 해결하며, 추가적인 보정 과정 없이 완전한 양자화 행렬 곱셈을 가능하게 합니다. 실험 결과, AMXFP4는 VQA에서 MXFP4보다 3%, CSQA에서 회전 기반 방법보다 1.6% 높은 정확도를 달성했으며, 최근 상용화된 MXFP4 변형보다도 우수한 성능을 보였습니다.

시사점, 한계점

시사점:
4비트 양자화를 통한 LLM 추론 효율 향상에 새로운 가능성 제시.
기존 MXFP4의 한계점을 극복하는 AMXFP4의 우수한 성능 검증.
비대칭 공유 스케일을 활용한 새로운 양자화 방법 제시.
최소한의 하드웨어 비용으로 정확도 향상 달성.
한계점:
AMXFP4의 성능 향상이 특정 데이터셋(VQA, CSQA)에 국한될 가능성.
다양한 LLM 아키텍처 및 크기에 대한 일반화 성능 추가 검증 필요.
제안된 MAC 엔진의 실제 하드웨어 구현 및 에너지 효율성 평가 필요.
👍