본 논문은 메모리 제약이 있는 기기에서 대규모 혼합 전문가 모델(MoE)을 효율적으로 배포하기 위한 전문가 오프로딩 기법의 효율성을 높이는 연구에 관한 것입니다. 기존 연구에서 간과했던 토큰 활성화의 지역성(local routing consistency)을 측정하기 위해 두 가지 지표, SRP(Segment Routing Best Performance)와 SCH(Segment Cache Best Hit Rate)를 제안합니다. 20개의 다양한 MoE LLMs을 분석하여 모든 레이어에 MoE를 적용하고 공유 전문가를 사용하지 않는 모델이 가장 높은 지역적 라우팅 일관성을 보임을 확인했습니다. 또한, 어휘 전문화보다 도메인 전문화 전문가가 라우팅 일관성에 더 기여하며, 대부분의 모델은 활성 전문가의 약 2배 크기의 캐시로 캐시 효율성과 효율성 간의 균형을 맞출 수 있음을 보였습니다. 이러한 결과는 추론 속도 저하 없이 메모리 효율적인 MoE 설계 및 배포에 기여합니다.