Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VideoComp: Advancing Fine-Grained Compositional and Temporal Alignment in Video-Text Models

Created by
  • Haebom

저자

Dahun Kim, AJ Piergiovanni, Ganesh Mallya, Anelia Angelova

개요

본 논문은 비디오-텍스트 조합성 이해를 위한 벤치마크 및 학습 프레임워크인 VideoComp를 제시합니다. 기존의 정적 이미지-텍스트 조합성이나 단일 이벤트 비디오에 초점을 맞춘 벤치마크와 달리, VideoComp는 연속적인 다중 이벤트 비디오에서의 정렬을 목표로 합니다. ActivityNet-Captions 및 YouCook2와 같은 시간적으로 지역화된 이벤트 캡션이 있는 비디오-텍스트 데이터셋을 활용하여 ActivityNet-Comp와 YouCook2-Comp라는 두 개의 조합 벤치마크를 구성합니다. 순서 변경, 동작 단어 교체, 부분 캡션, 복합적인 방해 등 미묘한 시간적 방해를 가진 어려운 부정적 샘플을 생성하여 확장된 응집력 있는 비디오-텍스트 시퀀스에서 모델의 조합 민감도를 포괄적으로 테스트합니다. 모델 성능 향상을 위해 시간적으로 정확한 쌍과의 정렬을 강화하고 점진적으로 방해가 심해지는 쌍에 대해 페널티를 부과하여 미세한 조합 학습을 장려하는 계층적 쌍 비교 선호도 손실을 제안합니다. 밀집적으로 주석이 달린 비디오 데이터의 제한된 가용성을 완화하기 위해 짧은 비디오-캡션 쌍을 연결하여 다중 이벤트 시퀀스를 시뮬레이션하는 사전 훈련 전략을 도입합니다. 벤치마크에서 비디오-텍스트 기본 모델과 대규모 다중 모달 모델(LMM)을 평가하여 조합성에서 강점과 개선 영역을 모두 파악합니다. 전반적으로 본 연구는 미세하고 시간적으로 일관된 비디오-텍스트 정렬을 달성하는 데 있어 모델 기능을 평가하고 향상시키기 위한 포괄적인 프레임워크를 제공합니다.

시사점, 한계점

시사점:
연속적인 다중 이벤트 비디오에서의 비디오-텍스트 조합성 이해를 위한 새로운 벤치마크(VideoComp) 및 학습 프레임워크 제시.
시간적으로 정확한 비디오-텍스트 정렬을 향상시키는 계층적 쌍 비교 선호도 손실 제안.
밀집 주석 데이터 부족 문제 해결을 위한 사전 훈련 전략 제시.
기존 VLM 모델의 조합성에 대한 강점과 약점을 포괄적으로 분석.
한계점:
사용된 데이터셋의 규모 및 다양성에 대한 제한.
제안된 사전 훈련 전략의 일반화 성능에 대한 추가 연구 필요.
다른 유형의 비디오-텍스트 조합성 문제에 대한 일반화 가능성 검증 필요.
👍