Vision Mamba의 효율성은 입력 토큰 수에 의해 제한된다는 문제점을 해결하기 위해, Coarse-to-Fine Vision Mamba (CF-ViM)를 제안한다. CF-ViM은 이미지의 복잡성에 따라 동적으로 해상도를 조정하여, 간단한 이미지는 거친 해상도로 처리하고, 복잡한 이미지는 세밀한 해상도로 재처리하여 계산 효율성을 높인다. ImageNet 실험에서 CF-ViM은 기존 Vision Mamba 및 최첨단 토큰 감소 기술보다 정확도와 효율성 측면에서 우수한 성능을 보였다.