본 논문은 자원 제약적인 장치에서 딥 뉴럴 네트워크를 배포할 때 발생하는 두 가지 주요 과제, 즉 공격적인 양자화 하에서 정확성을 유지하고 예측 가능한 추론 지연 시간을 보장하는 문제를 해결하기 위한 연구를 제시한다. 베이시안 인식 불확실성 기반 라우팅을 통해 이종 전문가(BitNet 삼진법, 1-16 비트 BitLinear, 사후 훈련 양자화) 간 라우팅을 수행하는 호기심 기반 양자화된 Mixture-of-Experts (MoE) 프레임워크를 제안한다. 오디오 분류 벤치마크(ESC-50, Quinn, UrbanSound8K)에서 4비트 양자화는 16비트 정확도의 99.9%를 유지하며(0.858 대 0.859 F1), 8비트에 비해 4배 압축 및 41% 에너지 절감 효과를 보인다. 호기심 기반 라우팅은 MoE 지연 시간 분산을 82% 감소시켜 배터리 제약 장치에 안정적인 추론을 가능하게 한다. 통계 분석 결과 4비트/8비트는 완전 정밀도와 실질적인 동등성을 달성하며, MoE 아키텍처는 정확성 향상 없이 11%의 지연 시간 오버헤드를 유발한다. 정보 이론적 라우팅을 통해 적응형 양자화가 정확하고 에너지 효율적이며 예측 가능한 엣지 모델을 생성하며, 단순한 4비트 양자화 아키텍처가 대부분의 배포에서 복잡한 MoE를 능가함을 입증했다.