VRoPE: Rotary Position Embedding for Video Large Language Models
Created by
Haebom
저자
Zikang Liu, Longteng Guo, Yepeng Tang, Tongtian Yue, Junxian Cai, Kai Ma, Qingbin Liu, Xi Chen, Jing Liu
개요
본 논문은 비디오에 대한 Rotary Position Embedding (RoPE)의 적용을 개선한 Video Rotary Position Embedding (VRoPE)를 제안합니다. 기존의 RoPE-3D는 공간 및 시간 차원을 개별적으로 인코딩하여 어텐션 분포의 위치 편향과 비디오-텍스트 전환의 혼란을 야기했으나, VRoPE는 더욱 균형 잡힌 인코딩 전략을 통해 어텐션 편향을 완화하고 공간적 초점의 균일한 분포를 보장합니다. 또한, 비디오 및 텍스트 토큰 간의 원활한 전환을 위해 위치 인덱스를 재구성합니다. 다양한 모델에 대한 실험 결과, VRoPE는 기존 RoPE 변형보다 비디오 이해, 시간적 추론 및 검색 작업에서 성능이 크게 향상됨을 보여줍니다. 소스 코드는 https://github.com/johncaged/VRoPE 에서 제공됩니다.