본 논문은 스마트폰의 보급으로 인해 주된 온라인 비디오 형식이 된 세로형 짧은 비디오에 특화된 최초의 오디오-비디오 이벤트 위치 확인(AVEL) 데이터셋 AVE-PM을 소개합니다. AVE-PM은 86개의 세분화된 범주를 포함하는 25,335개의 클립으로 구성되며, 프레임 단위 주석이 달려 있습니다. 기존 AVEL 데이터셋은 주로 가로형 긴 비디오와 깨끗하고 단순한 오디오 컨텍스트를 포함하는 반면, AVE-PM은 세로형 프레이밍과 중첩된 사운드 효과, 음성 해설, 음악 등의 계층적 오디오 구성이라는 고유한 특징을 가진 짧은 비디오에 집중합니다. 실험 결과, 최첨단 AVEL 방법은 크로스 모드 평가에서 평균 18.66%의 성능 저하를 보였으며, 이는 세로형 프레이밍으로 인한 공간적 편향과 잡음이 많은 오디오 구성이라는 두 가지 주요 과제 때문임을 밝혔습니다. 논문에서는 최적의 전처리 방법과 배경 음악의 영향을 조사하여 이러한 문제를 해결하고자 하였으며, 맞춤형 전처리 및 특수 모델 설계를 통해 성능 향상을 달성했습니다. 본 연구는 모바일 중심 비디오 콘텐츠 시대에 AVEL 연구 발전을 위한 기초적인 벤치마크와 실행 가능한 통찰력을 제공합니다. 데이터셋과 코드는 공개될 예정입니다.