DeCafNet: Delegate and Conquer for Efficient Temporal Grounding in Long Videos
Created by
Haebom
저자
Zijia Lu, A S M Iftekhar, Gaurav Mittal, Tianjian Meng, Xiawei Wang, Cheng Zhao, Rohith Kukkala, Ehsan Elhamifar, Mei Chen
개요
본 논문은 긴 비디오에서 사용자의 텍스트 질의에 따라 특정 순간을 식별하는 장기 비디오 시간적 접지(LVTG) 문제를 다룹니다. 기존 방법들은 비디오를 클립으로 나누고 각 클립을 완전한 전문가 인코더로 처리하는 방식을 사용하지만, 긴 비디오의 많은 클립을 처리하는 데 상당한 계산 비용이 소요되어 확장성에 어려움이 있습니다. 이 문제를 해결하기 위해 본 논문에서는 '위임 및 정복' 전략을 사용하는 DeCafNet을 제시합니다. DeCafNet은 효율적인 리소스 사용으로 모든 비디오 클립에 대한 밀집 특징 추출을 수행하는 조력자 인코더와 전문가 인코더에 의한 완전한 처리를 위한 가장 관련성이 높은 클립을 식별하는 중요도 지도를 생성합니다. 서로 다른 시간적 해상도에서 존재하는 조력자 및 전문가 인코더의 특징을 효과적으로 활용하기 위해 질의 인식 시간적 집계 및 다중 스케일 시간적 개선을 통해 이들을 통합하고 개선하는 DeCaf-Grounder를 제시합니다. 두 개의 LTVG 벤치마크 데이터셋에 대한 실험 결과, DeCafNet은 계산량을 최대 47%까지 줄이면서 기존 방법보다 성능이 우수하며, 효율성과 성능 측면에서 LTVG에 대한 새로운 최첨단 기술을 확립합니다. 코드는 https://github.com/ZijiaLewisLu/CVPR2025-DeCafNet 에서 이용 가능합니다.