Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

QGuard:Question-based Zero-shot Guard for Multi-modal LLM Safety

Created by
  • Haebom

作者

泰陽李、鄭和智、ヒョンソチョ、ソヨンキム、ユンホメン

QGuard: Question Prompting for LLM Safety

概要

大規模言語モデル(LLM)の発展はさまざまな分野に影響を与えましたが、悪意のあるユーザーが有害であるか、脱獄プロンプトを悪用する可能性も増加しました。本論文は、有害なプロンプトをブロックするために質問プロンプトを利用する簡単で効果的な安全保護方法であるQGuardを提案する。 QGuardはテキストベースとマルチモーダルの有害なプロンプト攻撃の両方に対して防御することができ、ファインチューニングなしで最新の有害なプロンプトに耐えます。実験結果は、QGuardがテキストベースおよびマルチモーダル有害データセットで競争力のあるパフォーマンスを示していることを示しています。また、質問のプロンプト分析により、ユーザー入力のホワイトボックス分析を可能にします。

Takeaways、Limitations

Takeaways:
ゼロショット方式で有害なプロンプトをブロックする簡単で効果的な方法を提示します。
テキストとマルチモーダル攻撃の両方に対して防御可能。
ファインチューニングなしで最新の有害プロンプトに堅牢。
質問プロンプト分析によるホワイトボックス分析の提供
LLMサービスのセキュリティリスク軽減に関する洞察を提供する。
Limitations:
論文に記載されているLimitationsはありません。
👍