대규모 비전-언어 모델에서 시각 토큰은 상당한 계산 비용을 유발하며, 기존의 토큰 가지치기 방법은 텍스트에 따라 중요도가 달라지는 픽셀 접지 작업에 어려움을 겪습니다. 본 논문은 CLIP 분석을 통해 참조 영역 내 시각 토큰이 텍스트 표현과 낮은 유사도를 보이는 점에 착안하여, 훈련 없이 텍스트를 기반으로 시각 토큰을 가지치기하는 LiteLVLM 방법을 제안합니다. LiteLVLM은 텍스트-시각 유사도 순위를 역전시켜 참조 영역을 포함하는 시각 토큰을 효과적으로 유지하고, 명확한 전경-배경 분리를 위한 컨텍스트 토큰을 복구하여 효율적인 픽셀 접지를 달성합니다.