Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les étudiants en master comprennent-ils la sécurité de leurs contributions ? Modération sans formation via des prototypes latents

Created by
  • Haebom

Auteur

Maciej Chrab\k{a}szcz, Filip Szatkowski, Bartosz W ojcik, Jan Dubi nski, Tomasz Trzci nski, Sebastian Cygert

Contour

Dans cet article, nous proposons une méthode d'évaluation de la sécurité sans entraînement qui utilise les informations internes des LLM pré-entraînés au lieu des modèles de garde traditionnels et coûteux pour résoudre les problèmes de sécurité et d'alignement des modèles de langage à grande échelle (LLM). Nous démontrons que le LLM peut reconnaître les entrées nuisibles par simple incitation et distinguer les incitations sûres et nuisibles dans l'espace latent du modèle. Sur cette base, nous proposons le Latent Prototype Moderator (LPM), un module complémentaire léger et personnalisé qui utilise la distance de Mahalanobis dans l'espace latent pour évaluer la sécurité des entrées. Le LPM se généralise à différentes familles et tailles de modèles et offre des performances équivalentes, voire supérieures, aux modèles de garde de pointe sur plusieurs benchmarks de sécurité.

Takeaways, Limitations

Takeaways:
Nous augmentons l’efficacité de la modération LLM en proposant une alternative sans formation au modèle de garde traditionnel à coût élevé.
LPM fournit une solution généralisable, flexible et évolutive, indépendante de la série et de la taille du modèle.
Nous démontrons qu’une simple incitation et une analyse de l’espace latent peuvent être utilisées pour évaluer la sécurité des LLM.
A atteint des performances de pointe dans de nombreux critères de sécurité.
Limitations:
Les performances de la méthode proposée peuvent dépendre du LLM utilisé et de l'ingénierie rapide.
Des recherches supplémentaires pourraient être nécessaires sur l’adaptabilité à de nouveaux types d’intrants nocifs.
Des recherches supplémentaires pourraient être nécessaires pour explorer l’interprétabilité de l’analyse de l’espace latent.
👍