본 논문은 로봇 공학 및 자율 주행과 같은 임베디드 장치에 배포하도록 최적화된 효율적인 Vision-Language Model (VLM) 파이프라인을 소개합니다. 이 파이프라인은 관련 없는 카메라 뷰를 필터링하기 위한 패치 선택, LLM의 입력 시퀀스 길이를 줄이기 위한 토큰 선택 모듈, 토큰 생성을 가속화하기 위한 추측 디코딩을 공동으로 활용하여 계산 오버헤드를 크게 줄입니다. 자율 주행 응용 분야를 위해 NVIDIA DRIVE Thor 플랫폼에서 평가한 결과, 파이프라인은 작업 정확도를 저해하지 않으면서 $2.5\times$의 엔드 투 엔드 지연 시간 감소를 달성했습니다. FP8 사후 훈련 양자화를 적용하면 속도가 $3.2\times$로 더욱 증가합니다.