[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

VLA-Mark: A cross modal watermark for large vision-language alignment model

Created by
  • Haebom

作者

Shuliang Liu, Qi Zheng, Jesse Jiaxi Xu, Yibo Yan, He Geng, Aiwei Liu, Peijie Jiang, Jia Liu, Yik-Cheung Tam, Xuming Hu

概要

本論文では、視覚言語モデルの知的財産権を保護するための新しい透かし技術であるVLA-Markを提案します。従来のテキスト透かし技術は、トークン選択の偏りと静的な戦略のため、視覚言語の整合性を阻害し、意味的に重要な概念を脆弱にする可能性があります。 VLA-Markは、マルチスケールのビジュアル言語整合性指標(局所パッチ類似度、グローバルセマンティクスの一貫性、コンテキストアテンションパターン)を統合し、モデルの再訓練なしに透かしを効果的に挿入しながら意味の忠実度を維持します。エントロピー感受性メカニズムは透かし強度とセマンティクス保存のバランスを動的に調整し、不確実性の低い生成段階では視覚的根拠に優先順位を付けます。実験の結果、従来の方法より7.4%低いPPLと26.6%高いBLEUを達成し、ほぼ完全な検出率(98.8%AUC)を示した。さらに、パラフレージングや同義語置換などの攻撃に対して96.1%の高い攻撃耐性を維持しながら、テキストと時刻の一貫性を維持し、高品質のマルチモーダル透かしの新しい基準を提供します。

Takeaways、Limitations

Takeaways:
モデルの再訓練なしでビジュアル言語モデルに透かしを効果的に挿入する新しい方法を提示
従来方式より向上した性能(PPL、BLEU)と高い検出率、攻撃耐性を達成
視覚言語の整合性を維持しながら透かしを挿入する技術の開発
高品質マルチモーダル透かしの新しい基準の提示
Limitations:
本論文で提示された攻撃タイプ以外の他の攻撃に対する抵抗性はさらなる研究を必要とする。
さまざまなビジュアル言語モデルとデータセットの一般化パフォーマンス評価が必要です。
エントロピー感受性メカニズムの最適パラメータ設定に関するさらなる研究が必要
👍