본 논문은 대규모 비전-언어 모델(LVLMs)의 높은 계산 비용 문제를 해결하기 위해, 정보 흐름(information flow)에 기반한 새로운 시각 토큰(visual token) 가지치기 프레임워크인 FlowCut을 제안합니다. 기존의 가지치기 방법들은 단일 계층의 어텐션 점수에만 의존하여 중복 토큰을 식별하는 반면, FlowCut은 토큰 간의 정보 흐름을 모델링하여 계층 간 상호작용을 고려합니다. CLS 토큰을 정보 중계 역할로 활용하여 복잡한 흐름 분석을 단순화하고, 계층별 어텐션 집중을 통해 중복성이 점진적이고 동적으로 나타나는 것을 발견했습니다. 실험 결과, FlowCut은 기존 최고 성능(SoTA)을 능가하는 성능 향상을 보였습니다. LLaVA-1.5-7B 모델에서 88.9%의 토큰 감소율로 1.6%의 성능 향상과 3.2배의 전처리 속도 향상을 달성했고, LLaVA-NeXT-7B 모델에서는 94.4%의 토큰 감소율로 4.3%의 성능 향상을 달성했습니다.