[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SEALGuard : protection des conversations multilingues en langues d'Asie du Sud-Est pour les systèmes logiciels LLM

Created by
  • Haebom

Auteur

Wenliang Shan, Michael Fu, Rui Yang, Chakkrit Tantithamthavorn

Contour

Cet article présente SEALGuard, une protection multilingue visant à améliorer la sécurité des modèles linguistiques à grande échelle (LLM) dans des environnements multilingues. La protection existante, LlamaGuard, présente une grande précision de détection pour les entrées non sécurisées écrites en anglais, mais présente une vulnérabilité aux entrées multilingues. Pour remédier à ce problème, nous construisons SEALSBench, un ensemble de données multilingues à grande échelle, aligné sur la sécurité, composé de plus de 260 000 invites couvrant 10 langues, et développons SEALGuard, qui adapte un modèle linguistique multilingue général à une protection multilingue par adaptation de bas niveau (LoRA). Les résultats expérimentaux montrent que SEALGuard surpasse LlamaGuard dans la détection des invites non sécurisées multilingues et des invites de jailbreak, et obtient les meilleures performances en termes de DSR, de précision et de score F1. De plus, nous analysons l'impact de la stratégie d'adaptation et de la taille du modèle sur les performances de SEALGuard grâce à des études d'ablation. Enfin, nous publions des modèles pré-entraînés et des benchmarks pour soutenir des recherches ultérieures.

Takeaways, Limitations

Takeaways:
Présentation de SEALGuard, un nouveau dispositif de protection multilingue qui contribue à améliorer la sécurité du LLM dans un environnement multilingue.
Démontre des performances de détection d'invite de sécurité multilingue supérieures aux méthodes existantes.
Annonce de SEALSBench, un ensemble de données d'alignement de sécurité multilingue à grande échelle.
Une méthode efficace d’adaptation de modèle utilisant une adaptation de bas niveau (LoRA) est présentée.
Limitations:
Le nombre et les types de langues incluses dans l'ensemble de données SEALSBench peuvent être limités (10 langues).
Il se peut qu’il ne couvre pas entièrement les différentes menaces de sécurité dans le monde réel.
La vérification des performances de généralisation est nécessaire pour les nouveaux types d'invites non sécurisées ou de techniques de jailbreak.
Des recherches supplémentaires sont nécessaires pour optimiser le coût de calcul et la taille du modèle.
👍