Cet article soulève la possibilité que de grands modèles de langage, à mesure qu'ils évoluent en tant que programmeurs autonomes, puissent automatiser des cyberopérations offensives risquées. Les audits de modèles de pointe existants étudient le risque de cybersécurité de ces agents, mais négligent souvent la liberté accordée aux adversaires dans le monde réel. En particulier, les agents de cybersécurité agressifs peuvent être améliorés de manière itérative par des adversaires potentiels grâce à des vérificateurs puissants et à des incitations financières. Par conséquent, cet article examine la nécessité de prendre en compte les modèles de menaces étendus dans le contexte de la cybersécurité, en soulignant les différents degrés de liberté dont disposent les adversaires dans des environnements avec et sans état, avec un budget de calcul fixe. Dans notre étude, nous montrons que même avec un budget de calcul relativement faible (8 H100 heures GPU), un adversaire peut améliorer les capacités de cybersécurité d'un agent de plus de 40 % par rapport à la référence dans InterCode CTF. Cela souligne la nécessité d'évaluer le risque de cybersécurité d'un agent de manière dynamique, afin d'obtenir une image plus réaliste des risques.