[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

JailDAM : Détection de jailbreak avec mémoire adaptative pour le modèle vision-langage

Created by
  • Haebom

Auteur

Yi Nian, Shenzhe Zhu, Yuehan Qin, Li Li, Ziyi Wang, Chaowei Xiao, Yue Zhao

Contour

Dans cet article, nous proposons JAILDAM, un nouveau framework de détection d'attaques de jailbreak pour le déploiement sécurisé de modèles de langage multimodaux à grande échelle (MLLM). Pour pallier les lacunes des méthodes existantes, qui sont (1) applicables uniquement aux modèles boîte blanche, (2) coûteuses en calcul et (3) insuffisantes en données étiquetées, JAILDAM utilise une approche basée sur la mémoire avec une représentation des connaissances non sécurisées basée sur des politiques. En mettant à jour dynamiquement les connaissances non sécurisées au moment du test, JAILDAM maintient son efficacité tout en améliorant les performances de généralisation, même face à des stratégies de jailbreak non identifiées. Les résultats expérimentaux obtenus sur plusieurs benchmarks de jailbreak VLM démontrent que JAILDAM atteint des performances de pointe en termes de précision et de rapidité.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau framework, JAILDAM, qui améliore considérablement les performances de détection des attaques de jailbreak de MLLM.
Nous proposons une méthode de détection efficace et applicable aux environnements réels, non limitée au modèle de boîte blanche.
Aide à résoudre les problèmes de pénurie de données en réduisant la dépendance aux données étiquetées.
Mise à jour dynamique des connaissances au moment du test pour améliorer les performances de généralisation aux nouvelles stratégies de jailbreak.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer dans quelle mesure les performances de généralisation de la méthode proposée sont durables.
Une évaluation de la robustesse des différentes architectures MLLM et stratégies de jailbreaking est nécessaire.
Une évaluation des performances et une vérification de la stabilité dans des environnements de service réels sont nécessaires.
👍