Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Dynamic Expert Quantization for Scalable Mixture-of-Experts Inference

Created by
  • Haebom
Category
Empty

저자

Kexin Chu, Dawei Xiang, Zixu Shen, Yiwei Yang, Zecheng Liu, Wei Zhang

DynaExq: A Runtime System for Dynamic Expert Quantization in MoE Models

개요

본 논문은 Mixture-of-Experts (MoE) 모델의 효율적인 확장을 위해 런타임 시스템 DynaExq를 제안합니다. DynaExq는 비활성 전문가의 메모리 사용량을 줄이기 위해, 전문가 정밀도를 동적으로 관리하는 것을 목표로 합니다. 이는 (1) 장기간의 활성화 통계를 기반으로 전문가 비트 너비를 조정하는 열 감지 정밀도 제어기, (2) MoE 계산과 승격 및 강등을 겹치는 완전 비동기 정밀도 전환 파이프라인, (3) 하이브리드 정밀도 전문가를 지원하는 단편화 없는 메모리 풀링 메커니즘을 결합합니다. 이를 통해, DynaExq는 엄격한 HBM 예산 하에서 안정적이고, 차단되지 않는 정밀도 전환을 가능하게 합니다. Qwen3-30B 및 Qwen3-80B MoE 모델과 6개의 벤치마크를 통해, DynaExq는 단일 RTX 5090 및 A6000 GPU에서 대형 LLM을 배포하고 정적 저정밀도 baseline보다 최대 4.03점의 정확도 향상을 보였습니다.

시사점, 한계점

시사점:
동적 전문가 양자화를 통해 메모리 제약 환경에서 대형 MoE 모델을 효율적으로 운영할 수 있음.
Adaptive, workload-aware quantization이 메모리 제약 MoE 서비스에 효과적인 전략임을 입증.
Qwen3-30B, Qwen3-80B 모델에 대한 실험을 통해 성능 검증.
단일 RTX 5090, A6000 GPU에서 대형 LLM 배포 가능.
한계점:
논문 자체에서는 명시된 한계점은 없으나, 시스템 복잡성 및 구현 난이도가 높을 수 있음.
특정 하드웨어(RTX 5090, A6000 GPU)에 대한 성능 평가이므로, 다른 하드웨어 환경에서의 일반화 여부는 추가 연구가 필요함.
실험에 사용된 모델 및 벤치마크의 범위가 제한적일 수 있으며, 다른 모델 및 벤치마크에 대한 성능 검증이 필요함.
👍