자원 제약적인 장치에서 딥 뉴럴 네트워크를 배포할 때 발생하는 두 가지 주요 과제, 즉 공격적인 양자화 하에서 정확도를 유지하는 것과 예측 가능한 추론 지연 시간을 보장하는 것을 해결하는 데 초점을 맞춘 연구입니다. 베이지안 인식 불확실성 기반 라우팅을 통해 이종 전문가(BitNet ternary, 1-16 bit BitLinear, post-training quantization) 간에 이루어지는 호기심 기반 양자화된 MoE(Mixture-of-Experts) 프레임워크를 제안합니다. 오디오 분류 벤치마크(ESC-50, Quinn, UrbanSound8K)에서 4비트 양자화는 16비트 정확도의 99.9%를 유지하며 (0.858 vs 0.859 F1) 8비트 대비 4배 압축 및 41% 에너지 절감 효과를 보입니다. 또한, 호기심 기반 라우팅은 MoE 지연 시간 분산을 82% 감소시켜 (p = 0.008, Levene's test) 배터리 제약 장치에 안정적인 추론을 가능하게 합니다. 4비트/8비트는 full precision과 실질적으로 동등하며 (p > 0.05), MoE 아키텍처는 정확도 향상 없이 11%의 지연 시간 오버헤드를 유발합니다 (p < 0.001). 정보 이론적 라우팅을 통해 적응형 양자화가 정확하고, 에너지 효율적이며, 예측 가능한 엣지 모델을 생성함을 보여줍니다. 4비트 양자화 아키텍처는 대부분의 배포에서 복잡한 MoE를 능가합니다.