EPIC-SOUNDS는 이고센트릭 비디오의 오디오 스트림 내에서 시간적 범위와 클래스 레이블을 포착하는 대규모 오디오 주석 데이터셋입니다. 주석자는 구별 가능한 오디오 세그먼트에 시간적 레이블을 지정하고 해당 사운드를 유발했을 수 있는 액션을 설명하는 주석 파이프라인을 제안합니다. 이러한 오디오에 대한 자유 형식 설명을 클래스로 그룹화하여 오디오만으로 구별할 수 있는 액션을 식별합니다. 물체가 충돌하는 액션의 경우, 해당 물체의 재질(예: 유리 물체를 나무 표면에 놓는 것)에 대한 사람의 주석을 수집하고 비디오에서 검증하여 모호성을 제거합니다. 전반적으로 EPIC-SOUNDS는 44개 클래스에 분포된 78.4k개의 분류된 가청 이벤트 및 액션 세그먼트와 39.2k개의 분류되지 않은 세그먼트를 포함합니다. 오디오 전용 및 오디오-비주얼 방법 모두에 대해 데이터셋에서 최첨단 오디오 인식 및 탐지 모델을 훈련하고 평가합니다. 또한 오디오 이벤트 간의 시간적 중복, 오디오 및 비주얼 모드 간의 시간적 및 레이블 상관 관계, 오디오 전용 입력에서 재료 주석의 모호성, 오디오 전용 레이블의 중요성, 그리고 사운드를 이해하는 현재 모델의 한계에 대한 분석을 수행합니다.