Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Scam2Prompt: A Scalable Framework for Auditing Malicious Scam Endpoints in Production LLMs

Created by
  • Haebom

作者

Zhiyang Chen, Tara Saba, Xun Deng, Xujie Si, Fan Long

概要

本論文は大規模言語モデル(LLM)の安全上の問題を扱い、特に悪意のあるコンテンツの生成の危険性を評価します。 「Scam2Prompt」という自動化された監査フレームワークを開発し、不正サイトの意図を特定し、それを模倣した無害な開発者スタイルのプロンプトを生成し、LLMがマルウェアを生成するかどうかをテストします。 4つの主要LLM(GPT-4o、GPT-4o-mini、Llama-4-Scout、DeepSeek-V3)の大規模な研究の結果、4.24%の場合に悪意のあるURLが発生しました。また、「Innoc2Scam-bench」を通じて2025年に発売された7つの追加LLMのテストを行った結果、12.7%から43.8%のマルウェア生成率を示した。既存の安全装置は、これらの脆弱性を適切に防御できないことが示されています。

Takeaways、Limitations

Takeaways:
LLMは悪意のあるコンテンツを学習し、無害なプロンプトにもマルウェアを生成する可能性がある重大なセキュリティの脆弱性を持っています。
Scam2PromptとInnoc2Scam-benchは、これらの脆弱性を評価し、悪意のあるコード生成を引き起こすプロンプトを特定するのに有効な方法論です。
既存の安全装置(Guardrails)は、LLMのマルウェア生成の防止には効果的ではありません。
Limitations:
研究は特定のLLMおよびプロンプトタイプに限定することができ、すべてのLLMに一般化するために追加の研究が必要です。
マルウェア生成率は、LLMの継続的な更新と改善に応じて変動する可能性があります。
Scam2Promptのマルウェア生成プロンプト生成プロセスは完璧ではない可能性があり、追加の改善が必要です。
👍