Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Bob's Confetti: Phonetic Memorization Attacks in Music and Video Generation

Created by
  • Haebom

作者

Jaechul Roh, Zachary Novack, Yuefeng Peng, Niloofar Mireshghallah, Taylor Berg-Kirkpatrick, Amir Houmansadr

概要

この論文は、生成モデルの暗記現象が単純な文字通りの再現を超えて、比喩的なパターン、意味の関連性、そして驚くべきことにモダリティを超えて(例えば歌詞 - 音楽生成、テキスト - ビデオ生成)現れることを明らかにします。特に、著作権のあるコンテンツが間接的な音声経路を通じて流出する新しい種類のクロスモダリティ暗記現象を明らかにし、これを攻撃する方法として敵対的な音声プロンプト(APT)を提案します。 APTは、象徴的なフレーズを音韻的に似ていますが、意味的には他の選択肢に置き換えて(例えば「mom's spaghetti」を「Bob's confetti」に)、音の形を維持しながら意味の内容を大幅に変更します。実験は、陰謀的に似ているが意味的には関係のない歌詞を使用して、モデルが暗記された曲を再生するように誘導できることを示しています。意味の変化にもかかわらず、SUNOのようなブラックボックスモデルとYuEのようなオープンソースモデルは、原曲と驚くほど似たような(メロディ、リズム、ボーカルの側面で)出力を生成し、AudioJudge、CLAP、CoverIDで高いスコアを得ます。これらの効果はジャンルと言語にわたって持続します。さらに驚くべきことに、音声プロンプトだけがテキストビデオモデルで視覚的暗記を引き起こす可能性があることを発見しました。 「Lose Yourself」の変更された歌詞を入力すると、Veo 3は元のミュージックビデオを反映するシーン(フードティーを着たラッパーや暗い都市の背景など)を生成します。プロンプトには明示的な視覚的な手がかりはありません。このようなクロスモダリティ漏洩は前例のない脅威を表し、著作権フィルタなどの既存の安全対策を無効にします。本研究は、転写ベースの生成モデルの根本的な脆弱性を示しており、著作権、ソース、および多モーダル生成システムの安全な配布に関する緊急の懸念を提起する。

Takeaways、Limitations

Takeaways:
生成モデルの暗記現象が文字通りの再現を超えて様々な方法で現れることを明らかにする。
クロスモダリティ暗記現象による著作権コンテンツ流出の新たな脅威を提示します。
既存の著作権フィルタなど安全対策の無力化の可能性を見せる。
ダモーダル生成システムの安全な展開のための新しい安全対策の開発の必要性の提起。
音声プロンプトを使用した敵対的な攻撃の可能性を示します。
Limitations:
APT攻撃の一般化の可能性と他のモデル/データセットに関するさらなる研究が必要です。
提案されたAPT攻撃に対する防御技術のさらなる研究が必要です。
さまざまな生成モデルとデータセットの広範な実験が必要です。
現実世界の著作権侵害事例との関連性に関するさらなる研究が必要
👍