Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

POEX : Vers des attaques de jailbreak exécutables de politique contre les robots basés sur LLM

Created by
  • Haebom

Auteur

Xuancun Lu, Zhengxian Huang, Xinfeng Li, Chi Zhang, Xiaoyu ji, Wenyuan Xu

Contour

Cet article étudie les vulnérabilités de sécurité des systèmes robotiques basés sur des modèles de langage à grande échelle (LLM). Nous soulignons que la vulnérabilité des LLM aux attaques de jailbreak, qui transforment les commandes robotiques en politiques exécutables, pose un risque de sécurité sérieux, du numérique au physique. Nous étudions l'applicabilité des attaques de jailbreak LLM existantes aux systèmes robotiques et proposons une nouvelle technique d'attaque, POlicy Executable (POEX). POEX utilise l'optimisation du gradient de couche cachée et un évaluateur multi-agents pour dériver des politiques nuisibles exécutables, et son efficacité est vérifiée par des systèmes robotiques et des simulations réelles. Enfin, nous proposons des techniques de défense basées sur des invites et des modèles pour atténuer les attaques de jailbreak.

Takeaways, Limitations

Takeaways:
Nous démontrons empiriquement la faisabilité d’une attaque de jailbreak sur un système robotique basé sur LLM.
Nous expliquons pourquoi les attaques de jailbreak LLM existantes ne sont pas directement applicables aux systèmes robotiques.
Nous proposons POEX, une nouvelle technique d'attaque de jailbreak spécialisée pour les systèmes robotiques, et vérifions son efficacité.
Des techniques de défense basées sur des invites et des modèles contre les attaques d'évasion de prison sont présentées.
Souligne la nécessité de mesures de sécurité urgentes pour garantir le déploiement sûr des robots basés sur LLM.
Limitations:
L'efficacité du POEX a été validée pour des systèmes robotiques et des LLM spécifiques, et sa généralisabilité à d'autres systèmes ou LLM nécessite des études plus approfondies.
Une analyse plus approfondie est nécessaire sur l’efficacité pratique et les limites des techniques de défense proposées.
Une étude approfondie des différents types d’attaques d’évasion de prison et des techniques de défense est nécessaire.
👍