Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mavors: Multi-granularity Video Representation for Multimodal Large Language Model

Created by
  • Haebom
Category
Empty

저자

Yang Shi, Jiaheng Liu, Yushuo Guan, Zhenhua Wu, Yuanxing Zhang, Zihao Wang, Weihong Lin, Jingyun Hua, Zekun Wang, Xinlong Chen, Bohan Zeng, Wentao Zhang, Fuzheng Zhang, Wenjing Yang, Di Zhang

개요

Mavors는 멀티모달 대형 언어 모델(MLLMs)에서 장기간의 비디오를 이해하는 데 필요한 계산 효율성과 미세한 시공간 패턴 유지를 균형 있게 맞추기 위해 제안된 새로운 프레임워크입니다. Mavors는 Intra-chunk Vision Encoder (IVE)와 Inter-chunk Feature Aggregator (IFA)를 사용하여 원시 비디오 내용을 잠재 표현으로 직접 인코딩합니다. IVE는 3D 컨볼루션과 Vision Transformers를 통해 고해상도 공간적 특징을 보존하고, IFA는 chunk-level rotary position encodings를 사용하여 transformer 기반 종속성 모델링을 통해 chunk 간 시간적 일관성을 확립합니다. 또한, 이미지를 단일 프레임 비디오로 취급하여 이미지와 비디오 이해를 통합합니다.

시사점, 한계점

시사점:
Mavors는 고해상도 공간적 특징과 시간적 연속성을 모두 유지하여, 복잡한 움직임이나 다양한 해상도를 가진 비디오에 강점을 보입니다.
이미지 및 비디오 이해를 통합하여 다양한 시각적 데이터를 처리할 수 있습니다.
기존 방법에 비해 미세한 시공간적 추론이 필요한 작업에서 성능이 향상되었습니다.
한계점:
논문의 구체적인 한계점에 대한 언급은 포함되어 있지 않음. (논문 요약에서 언급되지 않음)
👍