본 논문은 비디오 하이라이트 감지(HD) 및 모멘트 검색(MR)을 위한 새로운 프레임워크인 VideoLights를 소개합니다. 기존의 공동 예측 변환기(joint prediction transformers)가 교차 작업 역학 처리, 비디오-텍스트 정렬, 효과적인 주의 메커니즘 활용에 있어 한계를 보인다는 점에 착안하여, VideoLights는 (i) 비디오-텍스트 특징 일치를 향상시키기 위한 정렬 손실을 포함하는 Convolutional Projection 및 Feature Refinement 모듈, (ii) 강력하게 결합된 쿼리 인식 표현을 위한 양방향 교차 모달 융합 네트워크, (iii) 시너지 효과적인 작업 개선을 위한 단방향 공동 작업 피드백 메커니즘, (iv) 적응형 학습을 위한 하드 양성/음성 손실, (v) 우수한 멀티모달 특징 통합 및 합성 데이터를 사용한 지능형 사전 훈련을 위해 LVLM(예: BLIP-2)을 활용합니다. QVHighlights, TVSum, Charades-STA 벤치마크에 대한 포괄적인 평가를 통해 VideoLights가 기존의 기준선을 크게 능가하며 새로운 SOTA 성능을 달성했음을 보여줍니다.