Presentamos un nuevo benchmark llamado HonestCyberEval. Este benchmark está diseñado para evaluar las capacidades y los riesgos de los modelos de IA frente a la explotación automatizada de software, centrándose en su capacidad para detectar y explotar vulnerabilidades en sistemas de software reales. Utilizando un repositorio de servidor web Nginx con vulnerabilidades sintéticas, evaluamos varios modelos de lenguaje líderes, incluyendo GPT-4.5, o3-mini, o1 y o1-mini de OpenAI; Claude-3-7-sonnet-20250219, Claude-3.5-sonnet-20241022 y Claude-3.5-sonnet-20240620 de Anthropic; Gemini-1.5-pro de Google DeepMind; y el modelo GPT-4o previo de OpenAI. Los resultados muestran diferencias significativas en las tasas de éxito y la eficacia de estos modelos. o1-preview logró la mayor tasa de éxito (92,85%), mientras que o3-mini y Claude-3.7-sonnet-20250219 ofrecieron alternativas rentables, pero con menor tasa de éxito. Esta evaluación de riesgos proporciona una base para evaluar sistemáticamente los ciberriesgos de la IA en operaciones de ciberataque realistas.