Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

HonestCyber​​Eval: An AI Cyber​​ Risk Benchmark for Automated Software Exploitation

Created by
  • Haebom

作者

Dan Ristea, Vasilios Mavroudis

概要

HonestCyber​​Evalという新しいベンチマークを紹介します。このベンチマークは、自動化されたソフトウェアの悪用に対するAIモデルの能力とリスクを評価するために設計されており、実際のソフトウェアシステムの脆弱性を検出して悪用するAIモデルの能力に焦点を当てています。合成脆弱性を追加したNginx Webサーバーリポジトリを活用し、OpenAIのGPT-4.5、o3-mini、o1、o1-mini、AntropicのClaude-3-7-sonnet-20250219、Claude-3.5-sonnet-20241022、Claude-3.5-sonnet-202 Gemini-1.5-pro、OpenAIの以前のGPT-4oモデルなど、いくつかの主要言語モデルを評価しました。結果は,モデルの成功率と効率が大きく異なることを示した。 o1-previewは最高の成功率(92.85%)を達成し、o3-miniとClaude-3.7-sonnet-20250219は費用対効果が高いが成功率の低い代替案を提供しました。このリスク評価は、現実的なサイバー攻撃作戦でAIサイバーリスクを体系的に評価するための基盤を築きます。

Takeaways、Limitations

Takeaways:
実際のソフトウェアシステムの脆弱性を悪用するAIモデルの能力を評価する新しいベンチマークHonestCyber​​Evalを提示します。
さまざまな最先端の言語モデルの自動化されたソフトウェア悪用能力の比較と分析結果を提供します。
モデルの成功率とコスト効率の間の相関分析による最適モデル選択の洞察
現実的なサイバー攻撃状況におけるAIサイバーリスク評価のための体系的なフレームワークの構築。
Limitations:
Nginx Webサーバーとの合成脆弱性に限定された評価で、他のソフトウェアシステムや実際の脆弱性に対する一般化には限界存在。
評価に使用される言語モデルの種類とバージョンが制限される可能性があります。より多様なモデルの評価が必要。
合成脆弱性の現実性と実際の脆弱性との違いを考慮する必要があります。
👍