Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

L'arbre cache la forêt : invoquer des heuristiques et des biais pour susciter des choix irrationnels chez les étudiants en master de droit

Created by
  • Haebom

Auteur

Haoming Yang, Ke Ma, Xiaojun Jia, Yingfei Sun, Qianqian Xu, Qingming Huang

Contour

Dans cet article, nous proposons ICRT, un nouveau framework d'attaque par jailbreak qui contourne les mécanismes de sécurité des modèles de langage à grande échelle (LLM). Contrairement aux études précédentes qui s'appuyaient sur l'optimisation aléatoire ou la conception manuelle, ICRT induit efficacement des sorties malveillantes en réduisant la complexité des invites malveillantes et en augmentant la cohérence sémantique en exploitant les heuristiques et les biais de la cognition humaine (effet de simplification, biais de pertinence). De plus, nous présentons une nouvelle mesure d'évaluation de la nocivité basée sur le rang qui quantifie de manière exhaustive la nocivité des contenus générés à l'aide de méthodes d'agrégation de rangs telles que Elo, HodgeRank et Rank Centrality. Les résultats expérimentaux montrent qu'ICRT contourne systématiquement les mécanismes de sécurité des principaux LLM et génère des contenus à haut risque, ce qui fournit des informations sur les risques d'attaques par jailbreak et contribue au développement de stratégies de défense plus robustes.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau cadre d’attaque de jailbreak, ICRT, qui exploite les heuristiques et les biais de la cognition humaine.
Proposer un indice d’évaluation de la toxicité basé sur le rang qui va au-delà de la méthode binaire conventionnelle de succès/échec.
Fournit un aperçu pratique des risques d'attaques de jailbreak en contournant les mécanismes de sécurité de LLM et en générant du contenu à haut risque.
Contribuer au développement d’une stratégie de défense de sécurité LLM plus robuste.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité du cadre proposé.
Une expérimentation approfondie avec différentes définitions de LLM et de danger est nécessaire.
Manque de propositions spécifiques pour des stratégies de défense efficaces pour l’ICRT.
👍