Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

LLM Embedding-based Attribution (LEA): Quantifying Source Contributions to Generative Model's Response for Vulnerability Analysis

Created by
  • Haebom

作者

Reza Fayyazi, Michael Zuzak, Shanchieh Jay Yang

概要

本論文では、サイバーセキュリティ脅威分析にますます使用されている大規模言語モデル(LLM)の信頼性と安全性の問題について説明します。 2025年にのみ21,000を超える脆弱性が公開されているため、手動分析は不可能であり、拡張可能で検証可能なAIサポートが重要です。 LLM は、学習データの制限により新たに登場する脆弱性に対処するのが困難です。 Retrieval-Augmented Generation (RAG) は最新の情報を提供することでこれらの制限を緩和することができますが、LLM が検索された情報にどの程度依存しているか、検索された情報が意味があり正確かどうかは不明です。このような不確実性は、セキュリティアナリストを誤解させ、パッチ優先順位を誤って決定し、セキュリティリスクを高める可能性があります。したがって、この論文では、LLM Embedding-based Attribution(LEA)を提案し、脆弱性悪用分析に対する生成された応答を分析します。 LEAは、生成された応答における内部知識と検索されたコンテンツの相対的な寄与を定量化します。 3つの最先端のLLMを使用して、2016年から2025年の間に公開された500の重要な脆弱性について、3つのRAG設定(有効、一般、無効)でLEAを評価しました。結果は、LEAが大規模モデルで95%以上の精度で非検索、一般検索、有効検索シナリオ間の明確な違いを検出できることを示しています。最後に、誤った脆弱性情報の検索による制限を示し、脆弱性分析のためのLLMおよびRAGへの盲目的な依存に関する警告をサイバーセキュリティコミュニティに提示します。 LEAは、セキュリティアナリストにRAG強化されたワークフローを監査するための指標を提供し、サイバーセキュリティ脅威分析におけるAIの透明で信頼性の高い展開を改善します。

Takeaways、Limitations

Takeaways:
LLM Embedding-based Attribution (LEA) は、RAG ベースの LLM 応答で内部知識と検索された情報の寄与を定量的に分析し、信頼性を高める方法を提供します。
95%以上の高精度でRAGを検証し、誤った情報検索を検出できることを実験的に証明しました。
サイバーセキュリティ脅威分析では、AIの透明で信頼性の高い展開のための実践的なガイドラインを提供します。
Limitations:
誤った情報検索によるエラーの可能性を完全に排除することはできません。
評価に使用される500の脆弱性データセットの一般化の可能性に関するさらなる研究が必要です。
様々なLLMおよびRAGシステムに対するLEAの一般化性能に関するさらなる研究が必要である。
👍