본 논문은 장시간 비디오 이해(LVU)를 위한 새로운 방법인 Video-X²L을 제안합니다. 기존의 다중 모달 대규모 언어 모델(MLLM)은 장시간 비디오 처리에 과도한 계산 비용이 소요되는 문제를 가지는데, Video-X²L은 이를 해결하기 위해 이중 수준 KV 압축(bi-level KV compression)과 선택적 KV 재로딩(selective KV re-loading)이라는 두 가지 핵심 연산을 사용합니다. 이중 수준 KV 압축은 세밀한 비디오 정보를 담은 저압축 KV(L-KV)와 간결한 비디오 표현을 제공하는 고압축 KV(H-KV)를 생성하고, 선택적 KV 재로딩은 중요한 비디오 부분에 L-KV를, 덜 중요한 부분에는 H-KV를 사용하여 과도한 계산 비용 없이 작업별 정보를 최대한 활용합니다. 추가적인 훈련 없이 기존 KV 압축 가능 MLLM과 호환되며, VideoMME, MLVU, LongVideoBench, VNBench 등 다양한 LVU 벤치마크에서 기존 KV 압축 방법보다 뛰어난 성능을 보입니다.