본 논문은 대규모 언어 모델(LLM)이 비디오 콘텐츠를 해석할 수 있도록 하는 유망한 접근 방식인 토큰 기반 비디오 표현에 대해 다룹니다. 기존의 토큰 감소 기법(예: 가지치기 및 병합)은 필수적인 위치 임베딩을 방해하고, 유사한 공간-시간 위치를 가진 인접 픽셀에서 샘플링된 연속적인 시각적 토큰에 의존하는 경향이 있습니다. 본 논문에서는 최소한의 이산 토큰 집합을 사용하여 전체 비디오를 표현하는 것을 목표로 하는 극단적인 단축 토큰 감소(Extreme Short Token Reduction)라는 새로운 과제를 제시합니다. 이를 위해, 연속적인 ViT 임베딩에 적응형 벡터 양자화를 적용하여 컴팩트한 코드북을 학습하고, 토큰 해시 함수를 통해 공간-시간 위치를 보존하는 VQToken이라는 신경망 기반 이산 토큰 표현 프레임워크를 제안합니다. VQToken은 NextQA-MC 벤치마크에서 정확도 저하를 0.66%로 유지하면서 시퀀스를 원래 길이의 0.07%로 압축합니다. 또한 ActNet-QA, Long Video Bench, VideoMME에서도 비슷한 성능을 달성합니다. 토큰 정보 밀도(TokDense) 지표를 도입하고 고정 길이 및 적응형 길이 하위 작업을 공식화하여 두 설정 모두에서 최첨단 결과를 달성합니다. 이 접근 방식은 이론적 복잡성을 극적으로 낮추고, 정보 밀도를 높이며, 토큰 수를 크게 줄이고, 자원 제약 환경에서 효율적인 비디오 LLM을 가능하게 합니다.