Mixture-of-Experts (MoE) 모델은 LLM의 용량을 효율적으로 확장하지만, 비활성 전문가의 큰 메모리 사용량으로 인해 일반 사용자 GPU 배포에 제한이 있습니다. 정적 사후 훈련 양자화는 저장 비용을 줄이지만, 활성화 패턴 변화에 적응하지 못해 공격적인 압축 시 정확도 손실을 야기합니다. DynaExq는 전문가 정밀도를 동적으로 관리되는 자원으로 취급하는 런타임 시스템입니다. DynaExq는 (1) 장기 활성화 통계에 맞춰 전문가 비트 너비를 지속적으로 조정하는 열 감지 정밀도 컨트롤러, (2) MoE 연산과 승진 및 강등을 중첩하는 완전 비동기 정밀도 전환 파이프라인, (3) 결정적 할당을 통한 하이브리드 정밀도 전문가를 지원하는 조각 없는 메모리 풀링 메커니즘을 결합합니다. 이러한 구성 요소들을 통해 엄격한 HBM 예산 하에서 안정적이고 비차단 정밀도 전환이 가능합니다. Qwen3-30B 및 Qwen3-80B MoE 모델 및 6개의 대표 벤치마크에서 DynaExq는 단일 RTX 5090 및 A6000 GPU에 대형 LLM을 배포하고 정적 저정밀도 기준선보다 최대 4.03포인트의 정확도를 향상시킵니다. 결과는 적응형, 워크로드 인식 양자화가 메모리 제약 MoE 서비스에 효과적인 전략임을 보여줍니다.