본 논문은 Mixture-of-Experts (MoE) 모델의 효율적인 확장을 위해 런타임 시스템 DynaExq를 제안합니다. DynaExq는 비활성 전문가의 메모리 사용량을 줄이기 위해, 전문가 정밀도를 동적으로 관리하는 것을 목표로 합니다. 이는 (1) 장기간의 활성화 통계를 기반으로 전문가 비트 너비를 조정하는 열 감지 정밀도 제어기, (2) MoE 계산과 승격 및 강등을 겹치는 완전 비동기 정밀도 전환 파이프라인, (3) 하이브리드 정밀도 전문가를 지원하는 단편화 없는 메모리 풀링 메커니즘을 결합합니다. 이를 통해, DynaExq는 엄격한 HBM 예산 하에서 안정적이고, 차단되지 않는 정밀도 전환을 가능하게 합니다. Qwen3-30B 및 Qwen3-80B MoE 모델과 6개의 벤치마크를 통해, DynaExq는 단일 RTX 5090 및 A6000 GPU에서 대형 LLM을 배포하고 정적 저정밀도 baseline보다 최대 4.03점의 정확도 향상을 보였습니다.