Multimodal Mixture-of-Experts (MoE) 모델은 확장 가능하고 효율적인 대규모 시각-언어 시스템 구축에 유망하다. 하지만 기존 접근 방식은 고정된 라우팅 전략을 사용하여 모달리티 간의 의미적 중요성 차이를 무시한다. 이를 해결하기 위해, 본 논문은 토큰의 의미적 중요성에 따라 가변적인 수의 전문가 슬롯을 할당하는 온디맨드, 예산 인식 동적 라우팅 프레임워크인 AnyExperts를 제안한다. AnyExperts는 고정된 범위 내에서 토큰당 총 슬롯 수를 제한하고, 각 슬롯은 실제 전문가 또는 가상 전문가로 채워진다. 모델은 의미적으로 풍부한 영역에는 더 많은 실제 전문가를 할당하고, 불필요한 내용에는 가상 전문가를 활용하여 실제 전문가와 가상 전문가의 비율을 적응적으로 조절한다. 시각 이해, 오디오 이해, NLP 이해 등 다양한 작업에서 AnyExperts는 동일한 컴퓨팅 예산 하에서 성능을 향상시켰다.