Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CapRecover: A Cross-Modality Feature Inversion Attack Framework on Vision Language Models

Created by
  • Haebom

作者

Kedong Xiu, Sai Qian Zhang

概要

Vision-Language Model(VLM)が分散DNN環境で中間特徴をクラウドに転送するときに発生するセマンティック情報漏洩のリスクを解決するために、本論文は、画像再構成ではなく中間特徴から直接高レベルのセマンティックコンテンツ(例えば、ラベル、キャプション)を回復するクロスモダリティ逆転フレームワークであるCapRecoverを提案する。 CapRecoverは、さまざまなデータセットとモデルで優れた性能を示し、ラベル精度92.71%(CIFAR-10)とROUGE-Lスコア0.52(COCO2017のResNet50の特徴で作成されたキャプション)を達成しました。さらに、深い畳み込み層が浅い層よりもセマンティックな情報を多く符号化することを確認した。セマンティック情報漏洩緩和のために、各層の中間特徴にランダムノイズを追加し、次の層から除去する簡単な保護方法を提案し、追加の訓練費用なしで流出を防止できることを実験的に立証した。

Takeaways、Limitations

Takeaways:
画像の再構成なしで中間機能からラベルとキャプションを直接回復するCapRecoverフレームワークの提案。
さまざまなデータセットで高精度とキャプション生成のパフォーマンスを実証
深い畳み込み層がセマンティック情報エンコーディングにとってより重要であることを発見した。
追加の訓練費用なしでセマンティック情報の漏洩を軽減する簡単なノイズ追加方式を提示します。
Limitations:
論文に記載されているLimitationsはありません。
👍