TimeZero: Temporal Video Grounding with Reasoning-Guided LVLM
Created by
Haebom
Category
Empty
저자
Ye Wang, Boshen Xu, Zihao Yue, Zihan Xiao, Ziheng Wang, Liang Zhang, Dingyi Yang, Wenxuan Wang, Qin Jin
개요
TimeZero는 강화 학습을 통해 비디오-언어 관계를 추론하여 장시간 비디오에서 언어 질의에 따라 관련 비디오 세그먼트를 정확하게 찾는 시간적 비디오 접지(TVG) 작업을 위한 추론 기반 대규모 언어 모델(LVLM)입니다. Charades-STA 벤치마크에서 최첨단 성능을 달성하였으며, 코드는 깃허브에서 공개되어 있습니다.
시사점, 한계점
•
시사점: 강화 학습 기반 추론을 통해 장시간 비디오 접지 작업에서 최첨단 성능 달성. Charades-STA 벤치마크에서 성능 검증. 공개된 코드를 통한 재현성 확보 가능.
•
한계점: 다른 벤치마크에 대한 성능 평가 결과 부재. 모델의 일반화 능력에 대한 추가적인 분석 필요.