TimeRefine: Temporal Grounding with Time Refining Video LLM
Created by
Haebom
Category
Empty
저자
Xizi Wang, Feng Cheng, Ziyang Wang, Huiyu Wang, Md Mohaiminul Islam, Lorenzo Torresani, Mohit Bansal, Gedas Bertasius, David Crandall
개요
본 논문은 비디오 텍스트 기반 시간적 구획(Video Temporal Grounding) 작업에서, 비디오 대규모 언어 모델(Video LLMs)이 시간 토큰 예측에만 의존하는 경우 정확한 시간 경계를 찾는 데 어려움을 겪는 문제를 해결하는 TimeRefine 방법을 제안합니다. TimeRefine은 시작 및 끝 시간을 직접 예측하는 대신, 먼저 대략적인 예측을 하고 이후 목표 구간에 대한 오프셋을 예측하여 이를 다듬는 반복적인 정제 과정을 통해 시간적 구획 작업을 재구성합니다. 또한, 예측 구간이 실제 구간에서 벗어날수록 더 큰 페널티를 부과하는 보조 예측 헤드를 도입하여 모델의 시간적 인식 능력을 향상시킵니다. 이러한 플러그 앤 플레이 방식은 대부분의 LLM 기반 시간적 구획 접근 방식에 통합될 수 있으며, ActivityNet 및 Charades-STA 데이터셋에서 각각 3.6% 및 5.0%의 mIoU 향상을 달성했습니다. 코드와 사전 훈련된 모델이 공개될 예정입니다.
시사점, 한계점
•
시사점:
◦
기존 Video LLMs의 시간적 구획 정확도 한계를 극복하는 새로운 TimeRefine 방법 제시.
◦
반복적 정제 과정과 보조 예측 헤드를 통해 시간적 위치 정확도 향상.
◦
플러그 앤 플레이 방식으로 다양한 LLM 기반 모델에 적용 가능.
◦
ActivityNet 및 Charades-STA 데이터셋에서 성능 향상을 실험적으로 검증.