Présentation d'un nouveau benchmark appelé HonestCyberEval. Ce benchmark est conçu pour évaluer les capacités et les risques des modèles d'IA face à l'exploitation automatisée de logiciels, en se concentrant sur leur capacité à détecter et exploiter les vulnérabilités des systèmes logiciels réels. À l'aide d'un référentiel de serveur web Nginx contenant des vulnérabilités synthétiques, nous avons évalué plusieurs modèles de langages de pointe, notamment GPT-4.5, o3-mini, o1 et o1-mini d'OpenAI ; Claude-3-7-sonnet-20250219, Claude-3.5-sonnet-20241022 et Claude-3.5-sonnet-20240620 d'Anthropic ; Gemini-1.5-pro de Google DeepMind ; et le précédent modèle GPT-4o d'OpenAI. Les résultats montrent des différences significatives dans les taux de réussite et l'efficacité de ces modèles. o1-preview a obtenu le taux de réussite le plus élevé (92,85 %), tandis que o3-mini et Claude-3.7-sonnet-20250219 offraient des alternatives rentables, mais moins performantes. Cette évaluation des risques constitue une base pour l'évaluation systématique des cyberrisques liés à l'IA dans le cadre d'opérations de cyberattaque réalistes.