Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ĐáNh giá hiệu suất tính năng phổ và nhịp điệu cho phân loại âm thanh cấp độ danh mục và lớp với mạng nơ-ron tích chập sâu

Created by
  • Haebom

Tác giả

Friedrich Wolf-Monheim

Phác thảo

Bài báo này so sánh và phân tích hiệu suất của các đặc trưng phổ và nhịp điệu khác nhau (phổ đồ quy mô mel, MFCC, tempogram tuần hoàn, sắc đồ STFT, sắc đồ CQT và sắc đồ CENS) trong phân loại dữ liệu âm thanh bằng mạng nơ-ron tích chập sâu (CNN). Sử dụng bộ dữ liệu ESC-50 (2.000 bản ghi âm môi trường), chúng tôi đã đo độ chính xác, độ chính xác, độ thu hồi và điểm F1 của từng đặc trưng cho phân loại cấp độ danh mục và lớp âm thanh. Các thí nghiệm được tiến hành bằng cách sử dụng quy trình học sâu đầu cuối.

Takeaways, Limitations

Takeaways: Chúng tôi chứng minh rằng các phổ đồ và MFCC quy mô Mel vượt trội đáng kể so với các đặc điểm phổ và nhịp điệu khác trong các tác vụ phân loại âm thanh sử dụng CNN sâu. Điều này cung cấp những hiểu biết có giá trị cho việc phát triển các mô hình phân loại âm thanh trong tương lai.
Limitations: Vì thí nghiệm chỉ được thực hiện trên tập dữ liệu ESC-50, cần nghiên cứu thêm để xác định hiệu suất khái quát hóa trên các tập dữ liệu khác. Việc phân tích so sánh các kiến ​​trúc CNN khác nhau còn thiếu. Việc thiếu phân tích hiệu suất khi kết hợp các đặc trưng khác nhau cũng có thể được coi là một hạn chế của Limitations.
👍