본 논문은 대규모 언어 모델 확장의 주요 제약 사항인 GPU 메모리 용량 문제를 해결하기 위해, Mixture-of-Experts (MoE) 아키텍처를 위한 런타임 시스템인 ExpertFlow를 제안한다. ExpertFlow는 적응형 전문가 사전 인출 및 캐시 인식 라우팅을 결합하여, 빈번한 파라미터 전송으로 인한 지연 시간을 줄이고, 다양한 하드웨어 플랫폼 및 워크로드에 적응 가능한 크로스 레이어 예측 방식을 활용하여 견고성을 향상시킨다. ExpertFlow는 런타임 통계를 기반으로 전문가 활성화를 위한 예측 범위를 지속적으로 조정하고, 사전 게이팅 정보와 중간 계산 상태를 융합하는 하이브리드 크로스 레이어 예측 방식을 통해 캐시 미스를 줄이고 전문가 스왑인으로 인한 지연 시간을 제거한다.