Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Học các mẫu giọng nói của khỉ Marmoset bằng bộ mã hóa tự động có mặt nạ để phân đoạn, phân loại và nhận dạng người gọi một cách mạnh mẽ

Created by
  • Haebom

Tác giả

Bin Wu, Shinnosuke Takamichi, Sakriani Sakti, Satoshi Nakamura

Phác thảo

Bài báo này tập trung vào hành vi giao tiếp của khỉ marmoset. Khỉ marmoset là loài linh trưởng có hệ thống phát âm đa dạng và phức tạp. Không giống như tiếng nói của con người, hệ thống phát âm của chúng ít có cấu trúc và biến đổi hơn, đồng thời được ghi âm trong môi trường nhiều tiếng ồn, khiến việc phân tích trở nên khó khăn. Để giải quyết những thách thức này, chúng tôi đã huấn luyện trước một mô hình Transformer bằng phương pháp Masked Autoencoders (MAE), một phương pháp học tự giám sát. So với CNN, Transformer được huấn luyện trước bằng MAE đã vượt trội hơn khỉ marmoset trong các nhiệm vụ phân đoạn âm thanh, phân loại và nhận dạng người nói. Những kết quả này chứng minh tính hữu ích của các mô hình Transformer dựa trên học tự giám sát trong việc nghiên cứu giao tiếp phi con người trong môi trường thiếu thốn tài nguyên.

Takeaways, Limitations

Takeaways:
Một cách tiếp cận mới để nghiên cứu giao tiếp phi nhân loại trong môi trường thiếu tài nguyên (Bộ chuyển đổi tiền đào tạo sử dụng MAE)
Chứng minh tính hiệu quả của mô hình Transformer được đào tạo trước bằng MAE vượt trội hơn CNN.
Trình bày phương pháp hiệu quả để phân tích âm thanh của khỉ marmoset (phân đoạn, phân loại và xác định giọng hót).
Limitations:
Mô hình này chuyên dùng cho dữ liệu về loài khỉ đuôi sóc và cần nghiên cứu thêm để xác định khả năng tổng quát hóa của nó đối với các nghiên cứu giao tiếp ở các loài khác.
Hiệu suất có thể bị ảnh hưởng bởi kích thước và chất lượng của tập dữ liệu được sử dụng.
Có khả năng là các vấn đề quá khớp và mất ổn định của mô hình Transformer vẫn chưa được giải quyết hoàn toàn.
👍