[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ÉValuations dynamiques des risques pour les agents de cybersécurité offensifs

Created by
  • Haebom

Auteur

Boyi Wei, Benedikt Stroebl, Jiacen Xu, Joie Zhang, Zhou Li, Peter Henderson

Contour

Cet article soulève la possibilité que de grands modèles de langage, à mesure qu'ils évoluent en tant que programmeurs autonomes, puissent automatiser des cyberopérations offensives risquées. Les audits de modèles de pointe existants étudient le risque de cybersécurité de ces agents, mais négligent souvent la liberté accordée aux adversaires dans le monde réel. En particulier, les agents de cybersécurité agressifs peuvent être améliorés de manière itérative par des adversaires potentiels grâce à des vérificateurs puissants et à des incitations financières. Par conséquent, cet article examine la nécessité de prendre en compte les modèles de menaces étendus dans le contexte de la cybersécurité, en soulignant les différents degrés de liberté dont disposent les adversaires dans des environnements avec et sans état, avec un budget de calcul fixe. Dans notre étude, nous montrons que même avec un budget de calcul relativement faible (8 H100 heures GPU), un adversaire peut améliorer les capacités de cybersécurité d'un agent de plus de 40 % par rapport à la référence dans InterCode CTF. Cela souligne la nécessité d'évaluer le risque de cybersécurité d'un agent de manière dynamique, afin d'obtenir une image plus réaliste des risques.

Takeaways, Limitations_

Takeaways:
Cela suggère qu'un modèle de menace dynamique qui prend en compte les degrés de liberté de l'adversaire et la possibilité d'amélioration itérative est nécessaire pour évaluer avec précision le risque des agents de cyberattaque sur la base de grands modèles de langage.
Nous sensibilisons aux menaces réalistes en matière de cybersécurité en démontrant que les adversaires peuvent améliorer considérablement les performances des modèles même avec des ressources informatiques limitées.
Nous soulignons la nécessité de repenser et d’améliorer l’approche d’évaluation des risques de cybersécurité pour les futurs modèles linguistiques à grande échelle.
Limitations:
L’environnement CTF InterCode utilisé dans l’étude peut ne pas refléter parfaitement tous les scénarios de cyberattaque réels.
Des recherches supplémentaires sont nécessaires pour prendre en compte des scénarios d’attaque plus divers et plus complexes et des budgets informatiques plus importants.
Une analyse plus approfondie des modèles comportementaux et des stratégies de l’adversaire est nécessaire.
👍