[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Epic-Sounds: A Large-scale Dataset of Actions That Sound

Created by
  • Haebom

저자

Jaesung Huh, Jacob Chalk, Evangelos Kazakos, Dima Damen, Andrew Zisserman

개요

EPIC-SOUNDS는 이고센트릭 비디오의 오디오 스트림 내에서 시간적 범위와 클래스 레이블을 포착하는 대규모 오디오 주석 데이터셋입니다. 주석자는 구별 가능한 오디오 세그먼트에 시간적 레이블을 지정하고 해당 사운드를 유발했을 수 있는 액션을 설명하는 주석 파이프라인을 제안합니다. 이러한 오디오에 대한 자유 형식 설명을 클래스로 그룹화하여 오디오만으로 구별할 수 있는 액션을 식별합니다. 물체가 충돌하는 액션의 경우, 해당 물체의 재질(예: 유리 물체를 나무 표면에 놓는 것)에 대한 사람의 주석을 수집하고 비디오에서 검증하여 모호성을 제거합니다. 전반적으로 EPIC-SOUNDS는 44개 클래스에 분포된 78.4k개의 분류된 가청 이벤트 및 액션 세그먼트와 39.2k개의 분류되지 않은 세그먼트를 포함합니다. 오디오 전용 및 오디오-비주얼 방법 모두에 대해 데이터셋에서 최첨단 오디오 인식 및 탐지 모델을 훈련하고 평가합니다. 또한 오디오 이벤트 간의 시간적 중복, 오디오 및 비주얼 모드 간의 시간적 및 레이블 상관 관계, 오디오 전용 입력에서 재료 주석의 모호성, 오디오 전용 레이블의 중요성, 그리고 사운드를 이해하는 현재 모델의 한계에 대한 분석을 수행합니다.

시사점, 한계점

시사점:
대규모 이고센트릭 오디오 데이터셋 EPIC-SOUNDS를 제공하여 오디오 인식 및 탐지 모델 연구에 기여.
오디오만으로 구별 가능한 액션을 식별하고, 물체 재질 정보까지 포함하는 상세한 주석 제공.
오디오-비주얼 방법을 포함한 다양한 모델 평가 및 분석을 통해 오디오 이해 모델의 성능 및 한계 분석 가능.
오디오 이벤트의 시간적 특징, 오디오-비주얼 모달리티 간 상관관계 등에 대한 심층 분석 제공.
한계점:
오디오 전용 입력으로부터의 재료 주석에 모호성 존재.
현재 모델이 특정 사운드를 이해하는 데 한계를 보임.
분류되지 않은 세그먼트(39.2k)가 상당수 존재하여 데이터 활용에 제약이 있을 수 있음.
👍