Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI

Created by
  • Haebom

作者

Yuzhou Nie, Zhun Wang, Yu Yang, Ruizhe Jiang, Yuheng Tang, Xander Davies, Yarin Gal, Bo Li, Wenbo Guo, Dawn Song

概要

この論文は、コード生成大規模言語モデル(LLM)のセキュリティリスクと機能(脆弱性の検出など)を評価するための既存のベンチマークのLimitations(制限されたリスクと機能の範囲、静的評価指標への依存、データ品質とベンチマーク規模との間の矛盾を拡張するための拡張可能な高品質シードの例)ベンチマーク構成フレームワークを提示します。このアプローチは、動的指標を使用した包括的なリスク評価とセキュリティ機能評価をサポートするための包括的な成果物のコレクションを提供します。専門家の洞察と自動生成を組み合わせて、手動作業、データ品質、ベンチマーク規模のバランスをとります。 Python、C / C ++、Javaにこのフレームワークを適用して、44のCWEベースのリスクカテゴリと3つのセキュリティ機能を含む5,900以上のサンプルで構成されたSeCodePLTデータセットを構築します。 SeCodePLTは、既存の最先端のベンチマークと比較して、より広い範囲、より高いデータ忠実度、およびかなり大きな規模を提供し、それを使用して主要なコードLLMおよびエージェントを評価し、安全なコード生成および脆弱性の識別または修正における強みと弱点を実証します。

Takeaways、Limitations

Takeaways:
コード生成LLMのセキュリティリスクと機能評価のためのより包括的で拡張可能で正確なベンチマークフレームワークを提供します。
既存のベンチマークのLimitationsを克服し、より洗練された実用的な評価を可能にする。
SeCodePLTデータセットは、さまざまなプログラミング言語とリスクカテゴリを含む幅広い研究開発に活用できます。
主なコードLLMとエージェントのセキュリティパフォーマンスの詳細な分析結果を提供します。
Limitations:
フレームワークの一般化の可能性は、他のプログラミング言語またはセキュリティ領域に拡張するときに追加の検証が必要です。
手動検証に依存するため、ベンチマークの拡張性に制限がある可能性があります。
新しい脅威や脆弱性への適応性を維持するために、継続的な更新が必要です。
評価対象のLLMとエージェントの種類とバージョンによって結果が異なる場合があります。
👍