본 논문은 비전-언어 모델(VLM)의 높은 계산 비용과 추론 지연 문제를 해결하기 위해 모방 학습 기반의 Self-Speculative Decoding (SSD) 프레임워크인 FastVLM을 제안한다. FastVLM은 경량 초안 모델을 사용하여 토큰을 생성하고, 전체 모델이 이를 비(非)자기 회귀적으로 검증한다. 허용된 토큰은 그대로 진행되고, 거부된 토큰은 전체 모델에 의해 수정되어 초안 모델의 개선에 사용된다. 모방 네트워크를 통해 FastVLM은 전체 모델의 심층적인 통찰력을 통합하여 초안 모델을 향상시키며, 효율성과 정확성 사이의 균형을 유지하면서 전체 모델의 성능 무결성을 유지한다. 제안된 방법은 성능 저하 없이 추론 속도를 1.55~1.85배 향상시킨다.