[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Epic-Sounds: Một tập dữ liệu quy mô lớn về các hành động phát ra âm thanh

Created by
  • Haebom

Tác giả

Jaesung Huh, Jacob Chalk, Evangelos Kazakos, Dima Damen, Andrew Zisserman

Phác thảo

EPIC-SOUNDS là một tập dữ liệu chú thích âm thanh quy mô lớn, ghi lại phạm vi thời gian và nhãn lớp trong các luồng âm thanh của video tự kỷ. Người chú thích gán nhãn thời gian cho các phân đoạn âm thanh có thể phân biệt được và đề xuất một quy trình chú thích mô tả các hành động có thể đã gây ra âm thanh. Chúng tôi nhóm các mô tả âm thanh dạng tự do này thành các lớp để xác định các hành động có thể phân biệt được với chỉ âm thanh. Đối với các hành động liên quan đến va chạm giữa các vật thể, chúng tôi thu thập các chú thích của con người về vật liệu của vật thể (ví dụ: đặt một vật thể thủy tinh lên bề mặt gỗ) và xác minh chúng trong video để phân biệt sự mơ hồ. Nhìn chung, EPIC-SOUNDS chứa 78,4 nghìn phân đoạn sự kiện và hành động có thể nghe được đã được phân loại và 39,2 nghìn phân đoạn chưa được phân loại được phân bổ trên 44 lớp. Chúng tôi đào tạo và đánh giá các mô hình nhận dạng và phát hiện âm thanh tiên tiến trên tập dữ liệu cho cả phương pháp chỉ âm thanh và phương pháp nghe nhìn. Chúng tôi cũng phân tích sự chồng chéo về mặt thời gian giữa các sự kiện âm thanh, mối tương quan về thời gian và nhãn giữa chế độ âm thanh và hình ảnh, sự mơ hồ trong chú thích tài liệu từ các đầu vào chỉ có âm thanh, tầm quan trọng của nhãn chỉ có âm thanh và những hạn chế của các mô hình hiện tại để hiểu âm thanh.

Takeaways, Limitations

Takeaways:
ĐóNg góp vào nghiên cứu về các mô hình phát hiện và nhận dạng âm thanh bằng cách cung cấp bộ dữ liệu âm thanh tự kỷ quy mô lớn, EPIC-SOUNDS.
Xác định các hành động có thể phân biệt được chỉ bằng âm thanh và cung cấp chú thích chi tiết, thậm chí bao gồm thông tin về vật liệu đối tượng.
Phân tích hiệu suất và hạn chế của các mô hình hiểu âm thanh thông qua nhiều đánh giá và phân tích mô hình khác nhau, bao gồm các phương pháp nghe nhìn.
Cung cấp phân tích chuyên sâu về các đặc điểm thời gian của sự kiện âm thanh, mối tương quan giữa các phương thức nghe nhìn, v.v.
Limitations:
Sự mơ hồ tồn tại trong chú thích tài liệu từ đầu vào chỉ có âm thanh.
Mô hình hiện tại có những hạn chế trong việc hiểu một số âm thanh nhất định.
Có một số lượng đáng kể các phân đoạn chưa được phân loại (39,2k), điều này có thể hạn chế việc sử dụng dữ liệu.
👍