Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ASE: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code

Created by
  • Haebom

作者

Keke Lian, Bin Wang, Lei Zhang, Libo Chen, Junjie Wang, Ziming Zhao, Yujiu Yang, Miaoqian Lin, Haotong Duan, Haoran Zhao, Shuang Liao, Mingda Guo, Jiazheng Quan, Yilu Zhong, Chenhao He, Zichuan Chen Jiongchi Yu, Hui Li, Dong Zhang

概要

本論文は、ソフトウェアエンジニアリングにおける大規模言語モデル(LLM)の使用の増加に伴って生成されたコードの厳格なセキュリティ評価が必要であることを強調しています。既存のベンチマークは、実際のAIサポートプログラミングシナリオとの関連性が不足しているため、オペレーティング環境でAI生成コードに関連する実質的なセキュリティリスクを評価するのに不適切です。この問題を解決するために、本論文は、実際のAIプログラミングタスクを正確に反映するように設計されたストレージレベル評価ベンチマークであるASE(AI Code Generation Security Evaluation)を提示します。 ASEは、AI生成コードのセキュリティを評価するための包括的で信頼できるフレームワークを提供します。主要LLMのASE評価の結果、現在LLMは安全なコーディングに依然として困難を抱えていることを示している。リポジトリレベルのシナリオの複雑さは、通常、コードスニペットレベルの操作で優れたパフォーマンスを示すLLMに困難を引き起こします。さらに、より大きな推論予算が必ずしもより良いコード生成につながるわけではない。この観察は、AIコード生成の現在の状態に関する貴重な洞察を提供し、開発者が実際の作業に最適なモデルを特定するのに役立ちます。また、実際のアプリケーションで安全で効率的なコードを生成するためにLLMを改善するための基盤も用意しています。

Takeaways、Limitations

Takeaways:実際のAIサポートプログラミングシナリオのセキュリティ評価のための新しいベンチマークASEの提示。現在LLMの安全なコード生成能力の限界を明らかにする。リポジトリレベルタスクの複雑さがLLMパフォーマンスに与える影響を分析推論予算とコード生成品質の間の相関関係がないことを確認してください。実際のアプリケーションのためのLLM改善方向を提示します。
Limitations: ASEベンチマークの一般化の可能性に関するさらなる研究が必要です。さまざまな種類のセキュリティ脆弱性に対するLLMの脆弱性分析がさらに必要です。より多様なLLMモデルの評価が必要です。
👍