본 논문은 대규모 시각 입력(예: 비디오)을 처리하는 다중 모달 대규모 언어 모델(MLLM)에서 크로스 어텐션 계층의 메모리 소모 및 분산 계산의 어려움을 해결하기 위해, 통신 오버헤드를 최소화하는 분산된 정확한 크로스 어텐션 메커니즘인 LV-XAttn을 제안합니다. LV-XAttn은 query 블록의 크기가 key-value 블록의 크기보다 훨씬 작은 점을 이용하여, 큰 key-value 블록은 각 GPU에 로컬로 유지하고 작은 query 블록만 GPU 간에 교환합니다. 또한, 긴 시각적 컨텍스트를 지원하기 위해 효율적인 활성화 재계산 기법을 도입합니다. 이론적 분석과 Llama 3-V, mPLUG-Owl3, OpenFlamingo 모델을 이용한 실험 결과를 통해 LV-XAttn이 기존 방법에 비해 최대 10.62배의 종단 간 속도 향상을 달성함을 보여줍니다.