EPIC-SOUNDS là một tập dữ liệu chú thích âm thanh quy mô lớn, ghi lại phạm vi thời gian và nhãn lớp trong các luồng âm thanh của video tự kỷ. Người chú thích gán nhãn thời gian cho các phân đoạn âm thanh có thể phân biệt được và đề xuất một quy trình chú thích mô tả các hành động có thể đã gây ra âm thanh. Chúng tôi nhóm các mô tả âm thanh dạng tự do này thành các lớp để xác định các hành động có thể phân biệt được với chỉ âm thanh. Đối với các hành động liên quan đến va chạm giữa các vật thể, chúng tôi thu thập các chú thích của con người về vật liệu của vật thể (ví dụ: đặt một vật thể thủy tinh lên bề mặt gỗ) và xác minh chúng trong video để phân biệt sự mơ hồ. Nhìn chung, EPIC-SOUNDS chứa 78,4 nghìn phân đoạn sự kiện và hành động có thể nghe được đã được phân loại và 39,2 nghìn phân đoạn chưa được phân loại được phân bổ trên 44 lớp. Chúng tôi đào tạo và đánh giá các mô hình nhận dạng và phát hiện âm thanh tiên tiến trên tập dữ liệu cho cả phương pháp chỉ âm thanh và phương pháp nghe nhìn. Chúng tôi cũng phân tích sự chồng chéo về mặt thời gian giữa các sự kiện âm thanh, mối tương quan về thời gian và nhãn giữa chế độ âm thanh và hình ảnh, sự mơ hồ trong chú thích tài liệu từ các đầu vào chỉ có âm thanh, tầm quan trọng của nhãn chỉ có âm thanh và những hạn chế của các mô hình hiện tại để hiểu âm thanh.