VideoITG: Multimodal Video Understanding with Instructed Temporal Grounding
Created by
Haebom
저자
Shihao Wang, Guo Chen, De-an Huang, Zhiqi Li, Minghan Li, Guilin Li, Jose M. Alvarez, Lei Zhang, Zhiding Yu
개요
본 논문은 비디오 대규모 언어 모델(Video-LLMs)의 성능 향상을 위해 사용자 지시에 맞춰 프레임을 선택하는 새로운 방법인 Instructed Temporal Grounding for Videos (VideoITG)를 제안합니다. VideoITG는 자동 주석 프레임워크인 VidThinker를 중심으로, 사용자 지시에 따른 세부 클립 수준 캡션 생성, 지시어 기반 추론을 통한 관련 비디오 세그먼트 검색, 정보가 풍부한 시각적 증거를 정확히 찾아내기 위한 세분화된 프레임 선택의 단계를 거칩니다. VidThinker를 활용하여 4만 개의 비디오와 50만 개의 주석이 포함된 VideoITG-40K 데이터셋을 구축하고, Video-LLMs의 시각-언어 정렬 및 추론 기능을 활용하는 플러그 앤 플레이 방식의 VideoITG 모델을 설계했습니다. 실험 결과, 다양한 멀티모달 비디오 이해 벤치마크에서 VideoITG는 일관된 성능 향상을 보이며, 비디오 이해를 위한 우수성과 잠재력을 입증했습니다.
시사점, 한계점
•
시사점:
◦
사용자 지시에 기반한 프레임 선택을 통해 Video-LLMs의 성능을 향상시킬 수 있는 새로운 방법 제시.