[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SEALGuard : protection des conversations multilingues en langues d'Asie du Sud-Est pour les systèmes logiciels LLM

Created by
  • Haebom

Auteur

Wenliang Shan, Michael Fu, Rui Yang, Chakkrit Tantithamthavorn

Contour

Dans cet article, nous proposons SEALGuard, une protection multilingue, pour pallier les limitations des protections existantes basées sur des modèles linguistiques à grande échelle (LLM) (par exemple, LlamaGuard), qui ne prennent pas en charge le multilinguisme. SEALGuard est développé à l'aide de SEALSBench, un jeu de données multilingue à grande échelle, aligné sur la sécurité, composé de 10 langues, dont des langues à faibles ressources. Grâce à la technique d'adaptation à faible rang (LoRA), nous appliquons un modèle linguistique multilingue général comme protection multilingue. Une évaluation comparative avec LlamaGuard confirme sa supériorité face aux invites malveillantes multilingues et aux tentatives de jailbreak. En particulier, contrairement à LlamaGuard, dont la performance se dégrade face aux invites malveillantes et aux tentatives de jailbreak pour les langues autres que l'anglais (diminution de 9 % et 18 % du DSR), SEALGuard atteint des performances supérieures en termes de DSR, de précision et de score F1 (augmentation de 48 % du DSR par rapport à LlamaGuard). De plus, nous analysons les contributions des stratégies d'adaptation et de la taille du modèle à la performance grâce à des études d'ablation.

Takeaways, Limitations

Takeaways:
Présentation de SEALGuard, un dispositif de sécurité multilingue qui résout efficacement le problème du manque de support multilingue des dispositifs de sécurité LLM existants
Poser les bases d'une recherche multilingue en matière de sécurité LLM en créant un ensemble de données d'alignement de sécurité multilingue SEALSBench
Présentation d'une méthode pour construire un dispositif de sécurité multilingue efficace utilisant LoRA
Contribuer à l'amélioration de la sécurité du LLM dans un environnement multilingue
Limitations:
Il est nécessaire d'élargir la diversité des langues et des types d'invite dans l'ensemble de données SEALSBench
Nécessité d'une validation des performances de généralisation pour les nouveaux types d'invites malveillantes et de tentatives de jailbreak
Nécessité d'une évaluation supplémentaire des performances et de l'efficacité lorsqu'elles sont appliquées aux systèmes LLM réels
👍