Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Bob's Confetti: Các cuộc tấn công ghi nhớ ngữ âm trong thế hệ âm nhạc và video

Created by
  • Haebom

Tác giả

Jaechul Roh, Zachary Novack, Yuefeng Peng, Niloofar Mireshghallah, Taylor Berg-Kirkpatrick, Amir Houmansadr

Phác thảo

Bài báo này cho thấy việc ghi nhớ trong các mô hình sinh sản vượt ra ngoài phạm vi tái tạo nghĩa đen đơn thuần, bao gồm các mẫu ẩn dụ, liên tưởng ngữ nghĩa, và đáng ngạc nhiên là, xuyên suốt các phương thức (ví dụ: chuyển lời bài hát thành nhạc, chuyển văn bản thành video). Cụ thể, chúng tôi khám phá ra một loại ghi nhớ đa phương thức mới, trong đó nội dung có bản quyền bị rò rỉ qua các kênh lời nói gián tiếp, và đề xuất phương pháp Nhắc giọng nói đối kháng (APT) như một cách để giải quyết vấn đề này. APT thay thế các cụm từ mang tính biểu tượng bằng các lựa chọn thay thế tương tự về mặt ngữ âm nhưng khác biệt về mặt ngữ nghĩa (ví dụ: "mì Ý của mẹ" thành "hoa giấy của Bob"), giữ nguyên dạng âm thanh của chúng trong khi thay đổi đáng kể nội dung ngữ nghĩa của chúng. Kết quả thực nghiệm chứng minh rằng các mô hình có thể được kích thích để tái tạo các bài hát đã ghi nhớ bằng cách sử dụng lời bài hát tương tự về mặt ngữ âm nhưng không liên quan về mặt ngữ nghĩa. Bất chấp sự thay đổi ngữ nghĩa, các mô hình hộp đen như SUNO và các mô hình nguồn mở như YuE tạo ra đầu ra tương tự đáng kể (về giai điệu, nhịp điệu và giọng hát) với bài hát gốc, đạt điểm cao trên AudioJudge, CLAP và CoverID. Những hiệu ứng này tồn tại trên mọi thể loại và ngôn ngữ. Đáng ngạc nhiên hơn, chúng tôi phát hiện ra rằng việc ghi nhớ hình ảnh có thể được tạo ra trong mô hình chuyển văn bản sang video chỉ bằng cách sử dụng lời nhắc âm thanh. Khi được trình bày với lời bài hát đã được chỉnh sửa từ "Lose Yourself", Veo 3 đã tạo ra các cảnh quay phản ánh video âm nhạc gốc (bao gồm cả rapper mặc áo hoodie và bối cảnh đô thị tối tăm), nhưng không có tín hiệu hình ảnh rõ ràng nào trong lời nhắc. Sự rò rỉ liên phương thức này đặt ra một mối đe dọa chưa từng có, vượt qua các biện pháp bảo vệ hiện có như bộ lọc bản quyền. Nghiên cứu này chứng minh một lỗ hổng cơ bản trong các mô hình sinh sản dựa trên phiên mã và làm dấy lên những lo ngại cấp bách về bản quyền, nguồn gốc và việc phân phối an toàn của các hệ thống sinh sản đa phương thức.

Takeaways, Limitations

Takeaways:
Nó cho thấy hiện tượng ghi nhớ của các mô hình sinh sản xuất hiện theo nhiều cách khác nhau ngoài việc tái tạo theo nghĩa đen.
Ghi nhớ đa phương thức gây ra mối đe dọa mới đối với việc rò rỉ nội dung có bản quyền.
Thể hiện khả năng vô hiệu hóa các biện pháp an toàn hiện có như bộ lọc bản quyền.
Nhu cầu phát triển các biện pháp an toàn mới để triển khai an toàn các hệ thống phát điện đa phương thức đang được đặt ra.
Thể hiện khả năng tấn công đối địch bằng cách sử dụng lời nhắc bằng giọng nói.
Limitations:
Cần có thêm nghiên cứu về khả năng tổng quát hóa các cuộc tấn công APT và các mô hình/bộ dữ liệu khác.
Cần nghiên cứu thêm về các kỹ thuật phòng thủ chống lại cuộc tấn công APT được đề xuất.
Cần phải thử nghiệm rộng rãi với nhiều mô hình và tập dữ liệu tạo ra khác nhau.
Cần nghiên cứu thêm để xác định sự liên quan của nó với các trường hợp vi phạm bản quyền trong thế giới thực.
👍