Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Revisiting Pre-trained Language Models for Vulnerability Detection

Created by
  • Haebom

作者

Youpeng Li, Weiliang Qi, Xuyu Wang, Fuxun Yu, Xinda Wang

概要

この論文は、事前訓練された言語モデル(PLM)を使用した脆弱性検出(VD)の効果を包括的に評価したRevisitVD研究を提示します。 17のPLM(小規模コード特化PLMおよび大規模PLMを含む)を使用して、新しく構成されたデータセットで微調整とプロンプトエンジニアリング方式を比較分析し、さまざまな訓練およびテスト設定での効果と一般化能力、コード正規化、抽象化、意味保存変換に対する堅牢性を評価しました。コードの構文パターンと意味パターンをキャプチャするように設計された事前トレーニングタスクを組み込んだPLMは、一般目的PLMまたは大規模コードコーパスでのみ事前トレーニングまたは微調整PLMよりもパフォーマンスが優れていることを明らかにしました。しかし、複雑な依存性を持つ脆弱性の検出、コード正規化および抽象化による変化処理、意味を保存する脆弱性コード変換の識別など、実際のシナリオでは困難を経験するという点も発見しました。また、PLMの限られたコンテキストウィンドウに起因する切り捨ては、かなりのラベリングエラーを引き起こす可能性があることを指摘しています。

Takeaways、Limitations

Takeaways:コードの構文と意味パターンを考慮した事前トレーニングがVDパフォーマンスの向上に重要であることを示しています。実際のVD適用のためのPLM評価の重要性を強調します。
Limitations:複雑な依存関係を持つ脆弱性、コード変換、制限されたコンテキストウィンドウによるラベリングエラーなど、実際のシナリオを適用する際の困難を提示します。 PLMの実際の世界適用のための改善の方向を提示する必要があります。
👍