본 논문은 실시간 애플리케이션을 위한 비전-언어 모델(VLMs) 최적화에 대한 새로운 접근 방식인 Flash-VL 2B를 소개합니다. 정확도를 희생하지 않고 초저지연 및 고 처리량을 목표로, 고급 아키텍처 개선 및 효율적인 계산 전략을 활용하여 처리 시간을 단축함으로써 처리량을 극대화하도록 설계되었습니다. 맞춤형 아키텍처 선택, 토큰 압축 메커니즘, 데이터 큐레이션, 훈련 방식, 그리고 계산 부하와 모델 성능 간의 균형을 효과적으로 맞추는 새로운 이미지 처리 기술인 암시적 의미적 스티칭(implicit semantic stitching)을 포함합니다. 11개의 표준 VLM 벤치마크에 대한 광범위한 평가를 통해 Flash-VL 2B가 속도와 정확도 모두에서 최첨단 결과를 달성함을 보여주어, 자원 제약 환경과 대규모 실시간 애플리케이션 배포에 유망한 솔루션임을 입증합니다.