Sign In

FastVLM: Self-Speculative Decoding for Fast Vision-Language Model Inference

Created by
  • Haebom
Category
Empty

저자

Divya Jyoti Bajpai, Manjesh Kumar Hanawal

개요

본 논문은 비전-언어 모델(VLM)의 높은 계산 비용과 추론 지연 문제를 해결하기 위해 모방 학습 기반의 Self-Speculative Decoding (SSD) 프레임워크인 FastVLM을 제안한다. FastVLM은 경량 초안 모델을 사용하여 토큰을 생성하고, 전체 모델이 이를 비(非)자기 회귀적으로 검증한다. 허용된 토큰은 그대로 진행되고, 거부된 토큰은 전체 모델에 의해 수정되어 초안 모델의 개선에 사용된다. 모방 네트워크를 통해 FastVLM은 전체 모델의 심층적인 통찰력을 통합하여 초안 모델을 향상시키며, 효율성과 정확성 사이의 균형을 유지하면서 전체 모델의 성능 무결성을 유지한다. 제안된 방법은 성능 저하 없이 추론 속도를 1.55~1.85배 향상시킨다.

시사점, 한계점

시사점:
VLM의 추론 속도 향상.
경량 초안 모델과 전체 모델의 협력을 통한 효율적인 추론.
성능 저하를 최소화하면서 속도 향상 달성.
한계점:
구체적인 성능 수치 및 실험 환경에 대한 정보 부족.
다른 VLM 모델과의 비교 결과 미제시.
모델 훈련 및 구현에 대한 자세한 정보 부족.
👍