पेश है HonestCyberEval नामक एक नया बेंचमार्क। यह बेंचमार्क स्वचालित सॉफ़्टवेयर शोषण के विरुद्ध AI मॉडल की क्षमताओं और जोखिमों का आकलन करने के लिए डिज़ाइन किया गया है, जो वास्तविक दुनिया की सॉफ़्टवेयर प्रणालियों में कमज़ोरियों का पता लगाने और उनका दोहन करने की AI मॉडल की क्षमता पर केंद्रित है। सिंथेटिक कमज़ोरियों वाले Nginx वेब सर्वर रिपॉजिटरी का उपयोग करते हुए, हमने कई प्रमुख भाषा मॉडलों का मूल्यांकन किया, जिनमें OpenAI का GPT-4.5, o3-mini, o1, और o1-mini; Anthropic का Claude-3-7-sonnet-20250219, Claude-3.5-sonnet-20241022, और Claude-3.5-sonnet-20240620; Google DeepMind का Gemini-1.5-pro; और OpenAI का पिछला GPT-4o मॉडल शामिल हैं। परिणाम इन मॉडलों की सफलता दर और प्रभावशीलता में महत्वपूर्ण अंतर दर्शाते हैं। o1-preview ने सबसे ज़्यादा सफलता दर (92.85%) हासिल की, जबकि o3-mini और Claude-3.7-sonnet-20250219 ने किफ़ायती लेकिन कम सफलता दर वाले विकल्प पेश किए। यह जोखिम मूल्यांकन वास्तविक साइबर हमलों से निपटने में AI साइबर जोखिमों के व्यवस्थित आकलन के लिए एक आधार प्रदान करता है।