Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval

Created by
  • Haebom
Category
Empty

저자

Dhiman Paul, Md Rizwan Parvez, Nabeel Mohammed, Shafin Rahman

VideoLights: 혁신적인 비디오 하이라이트 감지 및 모멘트 검색 프레임워크

개요

본 논문은 비디오 하이라이트 감지(HD) 및 모멘트 검색(MR)을 위한 새로운 프레임워크인 VideoLights를 소개합니다. 기존의 공동 예측 변환기(joint prediction transformers)가 교차 작업 역학 처리, 비디오-텍스트 정렬, 효과적인 주의 메커니즘 활용에 있어 한계를 보인다는 점에 착안하여, VideoLights는 (i) 비디오-텍스트 특징 일치를 향상시키기 위한 정렬 손실을 포함하는 Convolutional Projection 및 Feature Refinement 모듈, (ii) 강력하게 결합된 쿼리 인식 표현을 위한 양방향 교차 모달 융합 네트워크, (iii) 시너지 효과적인 작업 개선을 위한 단방향 공동 작업 피드백 메커니즘, (iv) 적응형 학습을 위한 하드 양성/음성 손실, (v) 우수한 멀티모달 특징 통합 및 합성 데이터를 사용한 지능형 사전 훈련을 위해 LVLM(예: BLIP-2)을 활용합니다. QVHighlights, TVSum, Charades-STA 벤치마크에 대한 포괄적인 평가를 통해 VideoLights가 기존의 기준선을 크게 능가하며 새로운 SOTA 성능을 달성했음을 보여줍니다.

시사점, 한계점

교차 작업 역학, 비디오-텍스트 정렬, 주의 메커니즘, LLM/LVLM 활용 문제를 해결하는 새로운 HD/MR 프레임워크 제시.
Convolutional Projection, Feature Refinement, Bi-Directional Cross-Modal Fusion, Uni-directional joint-task feedback, hard positive/negative losses, LVLM 통합 등 다양한 혁신적인 접근 방식 사용.
QVHighlights, TVSum, Charades-STA 벤치마크에서 SOTA 달성.
LVLM의 활용과 합성 데이터 기반 사전 훈련을 통해 멀티모달 학습 효율성을 증명.
GitHub을 통해 코드 및 모델 체크포인트 제공.
👍