Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Khám phá sự đánh đổi trong thiết kế bộ điều hợp để tạo ra âm nhạc ít tài nguyên

Created by
  • Haebom

Tác giả

Atharva Mehta, Shivam Chauhan, Monojit Choudhury

Phác thảo

Bài báo này nghiên cứu các kỹ thuật tinh chỉnh hiệu quả tham số (PEFT), đặc biệt là các phương pháp dựa trên bộ điều hợp, cho các mô hình tạo nhạc quy mô lớn như MusicGen và Mustango. Chúng tôi khám phá các thiết kế bộ điều hợp tối ưu bằng cách so sánh các cấu hình bộ điều hợp khác nhau (kiến trúc, bố cục và kích thước) cho hai thể loại nhạc thưa thớt tài nguyên: nhạc cổ điển Hindustani và nhạc Makam của Thổ Nhĩ Kỳ. Chúng tôi thấy rằng các bộ điều hợp dựa trên tích chập vượt trội về các chi tiết âm nhạc chi tiết, trong khi các bộ điều hợp dựa trên bộ biến áp bảo tồn tốt hơn các phụ thuộc dài hạn. Hơn nữa, chúng tôi thấy rằng một bộ điều hợp cỡ trung bình (40 triệu tham số) cung cấp sự cân bằng tối ưu giữa khả năng biểu đạt và chất lượng. Mustango (một mô hình dựa trên khuếch tán) cung cấp tính đa dạng tuyệt vời nhưng lại gặp phải tình trạng không ổn định, trong khi MusicGen (một mô hình tự hồi quy) đào tạo nhanh chóng và tạo ra các hiện vật chất lượng cao nhưng tạo ra các hiện vật hơi dư thừa.

Takeaways, Limitations

Takeaways:
Bộ điều hợp dựa trên tích chập có hiệu quả đối với các biểu đạt âm nhạc chi tiết (trang trí, giai điệu ngắn), trong khi bộ điều hợp dựa trên biến áp có hiệu quả trong việc duy trì sự phụ thuộc lâu dài.
Bộ điều hợp cỡ trung bình với khoảng 40M tham số sẽ hoạt động tối ưu về mặt biểu cảm và chất lượng.
Phân tích so sánh điểm mạnh và điểm yếu của mô hình MusicGen và Mustango để đưa ra hướng dẫn lựa chọn mô hình.
_____T24546____:
Các thể loại được nghiên cứu chỉ giới hạn ở nhạc cổ điển Hindustani và nhạc Makam của Thổ Nhĩ Kỳ.
Khả năng áp dụng cho các thể loại nhạc có ít nguồn lực khác cần được nghiên cứu thêm.
👍