Sign In

TimeRefine: Temporal Grounding with Time Refining Video LLM

Created by
  • Haebom
Category
Empty

저자

Xizi Wang, Feng Cheng, Ziyang Wang, Huiyu Wang, Md Mohaiminul Islam, Lorenzo Torresani, Mohit Bansal, Gedas Bertasius, David Crandall

개요

본 논문은 비디오 텍스트 기반 시간적 구획(Video Temporal Grounding) 작업에서, 비디오 대규모 언어 모델(Video LLMs)이 시간 토큰 예측에만 의존하는 경우 정확한 시간 경계를 찾는 데 어려움을 겪는 문제를 해결하는 TimeRefine 방법을 제안합니다. TimeRefine은 시작 및 끝 시간을 직접 예측하는 대신, 먼저 대략적인 예측을 하고 이후 목표 구간에 대한 오프셋을 예측하여 이를 다듬는 반복적인 정제 과정을 통해 시간적 구획 작업을 재구성합니다. 또한, 예측 구간이 실제 구간에서 벗어날수록 더 큰 페널티를 부과하는 보조 예측 헤드를 도입하여 모델의 시간적 인식 능력을 향상시킵니다. 이러한 플러그 앤 플레이 방식은 대부분의 LLM 기반 시간적 구획 접근 방식에 통합될 수 있으며, ActivityNet 및 Charades-STA 데이터셋에서 각각 3.6% 및 5.0%의 mIoU 향상을 달성했습니다. 코드와 사전 훈련된 모델이 공개될 예정입니다.

시사점, 한계점

시사점:
기존 Video LLMs의 시간적 구획 정확도 한계를 극복하는 새로운 TimeRefine 방법 제시.
반복적 정제 과정과 보조 예측 헤드를 통해 시간적 위치 정확도 향상.
플러그 앤 플레이 방식으로 다양한 LLM 기반 모델에 적용 가능.
ActivityNet 및 Charades-STA 데이터셋에서 성능 향상을 실험적으로 검증.
코드 및 사전 훈련된 모델 공개를 통해 재현성 및 활용성 증대.
한계점:
제시된 방법의 성능 향상이 특정 데이터셋에 국한될 가능성.
다양한 종류의 비디오 및 텍스트 프롬프트에 대한 일반화 성능 평가 필요.
계산 비용 증가 가능성.
보조 예측 헤드의 설계 및 하이퍼파라미터 최적화에 대한 추가 연구 필요.
👍