본 논문은 생성 모델의 암기 현상이 단순한 문자 그대로의 재현을 넘어 비유적 패턴, 의미 연관성, 그리고 놀랍게도 모달리티를 넘어서(예: 가사-음악 생성, 텍스트-비디오 생성) 나타나는 것을 밝힙니다. 특히 저작권이 있는 콘텐츠가 간접적인 음성 경로를 통해 유출되는 새로운 종류의 교차 모달리티 암기 현상을 밝히고, 이를 공격하는 방법으로 적대적 음성 프롬프팅(APT)을 제안합니다. APT는 상징적인 구절을 음운적으로 유사하지만 의미적으로는 다른 대안으로 대체하여 (예: "mom's spaghetti"를 "Bob's confetti"로) 음향 형태는 유지하면서 의미 내용은 크게 변경합니다. 실험 결과, 음운적으로 유사하지만 의미적으로는 관련 없는 가사를 사용하여 모델이 암기된 노래를 재생하도록 유도할 수 있음을 보여줍니다. 의미의 변화에도 불구하고, SUNO와 같은 블랙박스 모델과 YuE와 같은 오픈소스 모델은 원곡과 놀라울 정도로 유사한(멜로디, 리듬, 보컬 측면에서) 출력을 생성하며, AudioJudge, CLAP, CoverID에서 높은 점수를 얻습니다. 이러한 효과는 장르와 언어에 걸쳐 지속됩니다. 더욱 놀랍게도, 음성 프롬프트만으로 텍스트-비디오 모델에서 시각적 암기를 유발할 수 있음을 발견했습니다. "Lose Yourself"의 변경된 가사를 입력했을 때, Veo 3는 원본 뮤직비디오를 반영하는 장면(후드티를 입은 래퍼와 어두운 도시 배경 등)을 생성하는데, 프롬프트에는 명시적인 시각적 단서가 없습니다. 이러한 교차 모달리티 유출은 전례 없는 위협을 나타내며, 저작권 필터와 같은 기존의 안전 조치를 무력화시킵니다. 본 연구는 전사 기반 생성 모델의 근본적인 취약성을 보여주며, 저작권, 출처, 그리고 다모달 생성 시스템의 안전한 배포에 대한 시급한 우려를 제기합니다.