Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Recomposer: Chỉnh sửa âm thanh tạo ra theo sự kiện

Created by
  • Haebom

Tác giả

Daniel PW Ellis, Eduardo Fonseca, Ron J. Weiss, Kevin Wilson, Scott Wisdom, Hakan Erdogan, John R. Hershey, Aren Jansen, R. Channing Moore, Manoj Plakal

Phác thảo

Bài báo này trình bày một hệ thống biên tập các cảnh âm thanh phức tạp trong thế giới thực. Hệ thống cung cấp khả năng xóa, chèn và tăng cường các sự kiện âm thanh riêng lẻ trong các cảnh âm thanh phức tạp, nơi các nguồn âm thanh riêng lẻ chồng chéo nhau về mặt thời gian. Hệ thống hoạt động dựa trên các mô tả biên tập văn bản (ví dụ: "tăng cường âm thanh cửa") và biểu diễn đồ họa về thời gian sự kiện được lấy từ bản ghi sự kiện. Hệ thống sử dụng bộ biến đổi mã hóa-giải mã với biểu diễn SoundStream, được huấn luyện trên các cặp ví dụ âm thanh tổng hợp (đầu vào, đầu ra mong muốn) được tạo ra bằng cách thêm các sự kiện âm thanh riêng lẻ vào nền âm thanh thực tế. Kết quả đánh giá cho thấy tầm quan trọng của từng phần trong mô tả biên tập (hành động, lớp và thời gian), chứng minh rằng "tái tạo" có những ứng dụng quan trọng và thiết thực.

Takeaways, Limitations

Takeaways:
Trình bày một hệ thống hiệu quả để chỉnh sửa từng sự kiện âm thanh trong các cảnh âm thanh phức tạp.
Có thể chỉnh sửa bằng cách sử dụng hướng dẫn chỉnh sửa dựa trên văn bản và thông tin thời gian sự kiện.
Triển khai mô hình hiệu quả bằng cách sử dụng biểu diễn SoundStream.
Giới thiệu tiềm năng của ứng dụng chỉnh sửa âm thanh mới có tên là "Reconstruction".
Kiểm chứng thực nghiệm tầm quan trọng của từng yếu tố trong mô tả chỉnh sửa (hành động, lớp, thời gian).
Limitations:
Hiệu suất tổng quát hóa có thể bị suy giảm khi so sánh với dữ liệu thực tế do quá trình đào tạo sử dụng dữ liệu tổng hợp.
Phụ thuộc vào độ chính xác của sự kiện chiến binh tung xúc xắc.
Cần phải xác minh hiệu suất tổng quát cho nhiều loại sự kiện âm thanh và cảnh âm thanh phức tạp.
👍