Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Tests de pénétration multi-agents IA pour le Web

Created by
  • Haebom

Auteur

Isaac David, Arthur Gervais

Contour

Cet article présente MAPTA, un système multi-agents, destiné à répondre à la crise d'évolutivité de l'audit de sécurité des applications web, engendrée par la prolifération des plateformes de développement logiciel basées sur l'IA. MAPTA réalise des évaluations autonomes de la sécurité des applications web en combinant des modèles de langage à grande échelle, une exécution assistée par outils et une vérification des exploits de bout en bout. Il affiche d'excellentes performances sur le benchmark XBOW (104 tâches), notamment pour la détection des erreurs SSRF et de mauvaise configuration. L'analyse des coûts révèle un coût moyen de 0,073 $ par tentative réussie et de 0,357 $ par tentative échouée, démontrant une forte corrélation entre réussite et efficacité des ressources. L'évaluation de dépôts GitHub réels (8 000 à 70 000 étoiles) a révélé de graves vulnérabilités, notamment des exécutions de code à distance (RCE), des injections de commandes, des divulgations de secrets et des écritures de fichiers arbitraires, avec 10 découvertes en cours d'examen CVE.

Takeaways, Limitations

Takeaways:
Démontrer l’efficacité d’un système automatisé d’évaluation de la sécurité des applications Web basé sur l’IA.
Présentation d'une méthode d'audit de sécurité rentable.
Découvrir et divulguer de manière responsable les vulnérabilités critiques dans des environnements réels.
Présentation de la possibilité d'audit de sécurité à l'aide de modèles linguistiques à grande échelle.
Limitations:
Faibles taux de détection de scripts intersites (57 %) et d'injection SQL aveugle (0 %).
Il est nécessaire d’améliorer les performances de détection pour des types spécifiques de vulnérabilités.
👍