VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM
Created by
Haebom
Category
Empty
저자
Yuqian Yuan, Hang Zhang, Wentong Li, Zesen Cheng, Boqiang Zhang, Long Li, Xin Li, Deli Zhao, Wenqiao Zhang, Yueting Zhuang, Jianke Zhu, Lidong Bing
개요
본 논문은 영상 대규모 언어 모델(Video LLMs)의 미세한 공간-시간적 세부 정보 파악 능력 부족 문제를 해결하기 위해 VideoRefer Suite를 제시합니다. VideoRefer Suite는 대규모 고품질 객체 수준 영상 지시 데이터셋(VideoRefer-700K), 다재다능한 공간-시간적 객체 인코더를 갖춘 VideoRefer 모델, 그리고 Video LLM의 공간-시간적 이해 능력을 종합적으로 평가하는 VideoRefer-Bench로 구성됩니다. 실험 결과, VideoRefer 모델은 기존 비디오 참조 벤치마크에서 우수한 성능을 달성하고 일반적인 영상 이해 능력을 향상시키는 것을 보여줍니다.
시사점, 한계점
•
시사점:
◦
객체 수준의 영상 지시 데이터셋과 벤치마크를 제공하여 Video LLM의 발전을 촉진합니다.
◦
미세한 공간-시간적 영상 이해를 위한 새로운 모델 아키텍처를 제시합니다.
◦
VideoRefer 모델이 일반적인 영상 이해 능력 향상에 기여함을 실험적으로 증명합니다.