CLIP Tricks You: Training-free Token Pruning for Efficient Pixel Grounding in Large VIsion-Language Models

Author

Haebom

저자

Sangin Lee, Yukyung Choi

💡 개요

대규모 비전-언어 모델에서 시각 토큰은 상당한 계산 비용을 유발하며, 기존의 토큰 가지치기 방법은 텍스트에 따라 중요도가 달라지는 픽셀 접지 작업에 어려움을 겪습니다. 본 논문은 CLIP 분석을 통해 참조 영역 내 시각 토큰이 텍스트 표현과 낮은 유사도를 보이는 점에 착안하여, 훈련 없이 텍스트를 기반으로 시각 토큰을 가지치기하는 LiteLVLM 방법을 제안합니다. LiteLVLM은 텍스트-시각 유사도 순위를 역전시켜 참조 영역을 포함하는 시각 토큰을 효과적으로 유지하고, 명확한 전경-배경 분리를 위한 컨텍스트 토큰을 복구하여 효율적인 픽셀 접지를 달성합니다.

🔑 시사점 및 한계

•

픽셀 접지 작업에서 텍스트-시각 유사도 역전을 통한 효과적인 토큰 가지치기 가능성을 제시합니다.

•

훈련 및 파인튜닝 없이도 상당한 성능 향상과 효율성 증대를 달성할 수 있음을 보여줍니다.

•

다양한 토큰 예산에서 기존 방법론 대비 5% 이상의 성능 우위를 보이며, 90%의 성능 유지와 22% 속도 향상, 2.3배 메모리 감소 효과를 얻었습니다.

•

제안된 LiteLVLM은 픽셀 접지라는 특정 작업에 초점을 맞추고 있으며, 다른 비전-언어 작업에 대한 일반화 성능은 추가적인 검증이 필요할 수 있습니다.

PDF 보기

Made with Slashpage