Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SpecVLM: Enhancing Speculative Decoding of Video LLMs via Verifier-Guided Token Pruning

Created by
  • Haebom

저자

Yicheng Ji, Jun Zhang, Heming Xia, Jinpeng Chen, Lidan Shou, Gang Chen, Huan Li

개요

본 논문은 비디오 대규모 언어 모델(Vid-LLMs)의 효율적인 디코딩을 위한 훈련 없이 동작하는 추측적 디코딩(Speculative Decoding, SD) 프레임워크인 SpecVLM을 제안합니다. Vid-LLMs는 비디오 콘텐츠 이해에 강력한 성능을 보이지만, 밀집된 비디오 토큰 표현으로 인해 메모리 및 계산 오버헤드가 상당합니다. SpecVLM은 단계적 비디오 토큰 가지치기를 통해 정보 손실을 최소화하고 디코딩 속도를 향상시킵니다. 초안 모델의 추측이 비디오 토큰 가지치기에 둔감하다는 점을 발견하여, 최대 90%의 비디오 토큰을 가지치기하면서 정확도를 유지합니다. 이는 검증자 모델(target model)의 어텐션 신호를 기반으로 정보가 풍부한 토큰을 선택하는 1단계와 공간적으로 균일하게 중복 토큰을 가지치는 2단계로 구성됩니다. 실험 결과, LLaVA-OneVision-72B에서 최대 2.68배, Qwen2.5-VL-32B에서 최대 2.11배의 디코딩 속도 향상을 달성했습니다.

시사점, 한계점

시사점:
Vid-LLMs의 디코딩 속도를 획기적으로 향상시키는 효율적인 훈련 없는 추측적 디코딩 프레임워크를 제시합니다.
비디오 토큰 가지치기를 통해 메모리 및 계산 자원을 절약할 수 있습니다.
LLaVA-OneVision-72B 및 Qwen2.5-VL-32B와 같은 대규모 모델에서도 효과적으로 동작합니다.
공개된 코드를 통해 재현성과 활용성을 높였습니다.
한계점:
제안된 방법의 효과는 특정 Vid-LLM 모델 및 비디오 이해 벤치마크에 국한될 수 있습니다.
가지치기 전략의 최적화는 모델과 데이터셋에 따라 달라질 수 있습니다.
더욱 다양한 비디오 데이터셋과 모델에 대한 실험이 필요합니다.
추측적 디코딩의 정확도 저하에 대한 추가적인 분석이 필요합니다.
👍