Bài báo này cho thấy việc ghi nhớ trong các mô hình sinh sản vượt ra ngoài phạm vi tái tạo nghĩa đen đơn thuần, bao gồm các mẫu ẩn dụ, liên tưởng ngữ nghĩa, và đáng ngạc nhiên là, xuyên suốt các phương thức (ví dụ: chuyển lời bài hát thành nhạc, chuyển văn bản thành video). Cụ thể, chúng tôi khám phá ra một loại ghi nhớ đa phương thức mới, trong đó nội dung có bản quyền bị rò rỉ qua các kênh lời nói gián tiếp, và đề xuất phương pháp Nhắc giọng nói đối kháng (APT) như một cách để giải quyết vấn đề này. APT thay thế các cụm từ mang tính biểu tượng bằng các lựa chọn thay thế tương tự về mặt ngữ âm nhưng khác biệt về mặt ngữ nghĩa (ví dụ: "mì Ý của mẹ" thành "hoa giấy của Bob"), giữ nguyên dạng âm thanh của chúng trong khi thay đổi đáng kể nội dung ngữ nghĩa của chúng. Kết quả thực nghiệm chứng minh rằng các mô hình có thể được kích thích để tái tạo các bài hát đã ghi nhớ bằng cách sử dụng lời bài hát tương tự về mặt ngữ âm nhưng không liên quan về mặt ngữ nghĩa. Bất chấp sự thay đổi ngữ nghĩa, các mô hình hộp đen như SUNO và các mô hình nguồn mở như YuE tạo ra đầu ra tương tự đáng kể (về giai điệu, nhịp điệu và giọng hát) với bài hát gốc, đạt điểm cao trên AudioJudge, CLAP và CoverID. Những hiệu ứng này tồn tại trên mọi thể loại và ngôn ngữ. Đáng ngạc nhiên hơn, chúng tôi phát hiện ra rằng việc ghi nhớ hình ảnh có thể được tạo ra trong mô hình chuyển văn bản sang video chỉ bằng cách sử dụng lời nhắc âm thanh. Khi được trình bày với lời bài hát đã được chỉnh sửa từ "Lose Yourself", Veo 3 đã tạo ra các cảnh quay phản ánh video âm nhạc gốc (bao gồm cả rapper mặc áo hoodie và bối cảnh đô thị tối tăm), nhưng không có tín hiệu hình ảnh rõ ràng nào trong lời nhắc. Sự rò rỉ liên phương thức này đặt ra một mối đe dọa chưa từng có, vượt qua các biện pháp bảo vệ hiện có như bộ lọc bản quyền. Nghiên cứu này chứng minh một lỗ hổng cơ bản trong các mô hình sinh sản dựa trên phiên mã và làm dấy lên những lo ngại cấp bách về bản quyền, nguồn gốc và việc phân phối an toàn của các hệ thống sinh sản đa phương thức.