HonestCyberEvalという新しいベンチマークを紹介します。このベンチマークは、自動化されたソフトウェアの悪用に対するAIモデルの能力とリスクを評価するために設計されており、実際のソフトウェアシステムの脆弱性を検出して悪用するAIモデルの能力に焦点を当てています。合成脆弱性を追加したNginx Webサーバーリポジトリを活用し、OpenAIのGPT-4.5、o3-mini、o1、o1-mini、AntropicのClaude-3-7-sonnet-20250219、Claude-3.5-sonnet-20241022、Claude-3.5-sonnet-202 Gemini-1.5-pro、OpenAIの以前のGPT-4oモデルなど、いくつかの主要言語モデルを評価しました。結果は,モデルの成功率と効率が大きく異なることを示した。 o1-previewは最高の成功率(92.85%)を達成し、o3-miniとClaude-3.7-sonnet-20250219は費用対効果が高いが成功率の低い代替案を提供しました。このリスク評価は、現実的なサイバー攻撃作戦でAIサイバーリスクを体系的に評価するための基盤を築きます。