Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Audio-visual Event Localization on Portrait Mode Short Videos

Created by
  • Haebom

저자

Wuyang Liu, Yi Chai, Yongpeng Yan, Yanzhen Ren

개요

본 논문은 스마트폰의 보급으로 인해 주된 온라인 비디오 형식이 된 세로형 짧은 비디오에 특화된 최초의 오디오-비디오 이벤트 위치 확인(AVEL) 데이터셋 AVE-PM을 소개합니다. AVE-PM은 86개의 세분화된 범주를 포함하는 25,335개의 클립으로 구성되며, 프레임 단위 주석이 달려 있습니다. 기존 AVEL 데이터셋은 주로 가로형 긴 비디오와 깨끗하고 단순한 오디오 컨텍스트를 포함하는 반면, AVE-PM은 세로형 프레이밍과 중첩된 사운드 효과, 음성 해설, 음악 등의 계층적 오디오 구성이라는 고유한 특징을 가진 짧은 비디오에 집중합니다. 실험 결과, 최첨단 AVEL 방법은 크로스 모드 평가에서 평균 18.66%의 성능 저하를 보였으며, 이는 세로형 프레이밍으로 인한 공간적 편향과 잡음이 많은 오디오 구성이라는 두 가지 주요 과제 때문임을 밝혔습니다. 논문에서는 최적의 전처리 방법과 배경 음악의 영향을 조사하여 이러한 문제를 해결하고자 하였으며, 맞춤형 전처리 및 특수 모델 설계를 통해 성능 향상을 달성했습니다. 본 연구는 모바일 중심 비디오 콘텐츠 시대에 AVEL 연구 발전을 위한 기초적인 벤치마크와 실행 가능한 통찰력을 제공합니다. 데이터셋과 코드는 공개될 예정입니다.

시사점, 한계점

시사점:
세로형 짧은 비디오에 특화된 최초의 AVEL 데이터셋 AVE-PM을 제공합니다.
기존 AVEL 방법의 세로형 짧은 비디오에 대한 성능 저하 문제를 밝히고, 그 원인을 분석했습니다.
세로형 짧은 비디오에 대한 최적의 전처리 및 모델 설계 방법을 제시합니다.
모바일 중심 비디오 콘텐츠 시대의 AVEL 연구 발전에 기여합니다.
한계점:
AVE-PM 데이터셋의 범주 수 및 크기가 향후 연구에서 더 확장될 필요가 있습니다.
본 연구에서 제시된 전처리 및 모델 설계 방법이 모든 세로형 짧은 비디오에 일반화될 수 있는지 추가 연구가 필요합니다.
다양한 유형의 잡음과 오디오 구성에 대한 더욱 심도있는 분석이 필요합니다.
👍