Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VideoPrism: A Foundational Visual Encoder for Video Understanding

Created by
  • Haebom

저자

Long Zhao, Nitesh B. Gundavarapu, Liangzhe Yuan, Hao Zhou, Shen Yan, Jennifer J. Sun, Luke Friedman, Rui Qian, Tobias Weyand, Yue Zhao, Rachel Hornung, Florian Schroff, Ming-Hsuan Yang, David A. Ross, Huisheng Wang, Hartwig Adam, Mikhail Sirotenko, Ting Liu, Boqing Gong

개요

VideoPrism은 단일 고정 모델을 사용하여 다양한 비디오 이해 작업을 처리하는 범용 비디오 인코더입니다. 3600만 개의 고품질 비디오-캡션 쌍과 5억 8200만 개의 노이즈 병렬 텍스트(예: ASR 전사)가 포함된 비디오 클립으로 구성된 이종 말뭉치에서 사전 훈련되었습니다. 이 사전 훈련 방식은 의미 있는 비디오 임베딩의 전역-지역 증류와 토큰 셔플링 기법을 통해 마스크 자동 인코딩을 개선하여 비디오 모드에 중점을 두면서 비디오와 관련된 귀중한 텍스트를 활용할 수 있도록 합니다. 웹 비디오 질의응답부터 과학을 위한 컴퓨터 비전까지 네 가지 광범위한 비디오 이해 작업 그룹에 대해 VideoPrism을 광범위하게 테스트한 결과, 33개의 비디오 이해 벤치마크 중 31개에서 최첨단 성능을 달성했습니다. 모델은 https://github.com/google-deepmind/videoprism 에서 공개됩니다.

시사점, 한계점

시사점:
단일 고정 모델로 다양한 비디오 이해 작업을 처리 가능
33개 중 31개의 비디오 이해 벤치마크에서 최첨단 성능 달성
의미 있는 비디오 임베딩의 전역-지역 증류와 토큰 셔플링 기법을 통해 기존 마스크 자동 인코딩 개선
고품질 비디오-캡션 쌍과 노이즈 병렬 텍스트를 활용한 효과적인 사전 훈련
오픈소스로 공개되어 접근성 향상
한계점:
33개 벤치마크 중 2개에서 최첨단 성능 달성 실패 (구체적인 이유는 논문에서 언급되지 않음)
사전 훈련 데이터의 크기 및 품질에 대한 의존도 (데이터 편향 가능성 존재)
특정 유형의 비디오 이해 작업에 대한 성능 저하 가능성 (구체적인 작업 유형은 논문에서 언급되지 않음)
👍