Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Amélioration des résultats LLM contre les attaques de jailbreak grâce à l'intégration de modèles experts

Created by
  • Haebom

Auteur

Tatia Tsmindashvili, Ana Kolkhidashvili, Dachi Kurtskhalia, Nino Maghlakelidze, Elene Mekvabishvili, Guram Dentoshvili, Orkhan Shamilov, Zaal Gachechiladze, Steven Saporta, David Dachi Choladze

Contour

Cet article propose un modèle expert spécifique au domaine, Archias, pour répondre aux menaces de sécurité (jailbreak et attaques par injection d'invites) qui surviennent lors de l'utilisation de modèles de langage à grande échelle (LLM) en environnements de production. Archias classe les requêtes des utilisateurs en plusieurs catégories, telles que les questions internes au domaine, les questions malveillantes, l'insertion de prix, l'insertion d'invites et les questions hors domaine, et intègre les résultats aux invites LLM pour générer des réponses LLM. Les expériences ont été menées principalement dans l'industrie automobile, et Archias peut être personnalisé et optimisé pour différents secteurs grâce à sa petite taille. Un jeu de données de référence est également publié.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle approche pour atténuer les vulnérabilités de sécurité dans LLM en tirant parti de modèles experts spécifiques au domaine.
Contribuer à l’avancement de la recherche en publiant des ensembles de données de référence pour l’industrie automobile.
La petite taille et la flexibilité d'Archias le rendent idéal pour une large gamme d'applications industrielles.
L'ingénierie rapide et les solutions pratiques du LLM pour améliorer la sécurité.
Limitations:
ÉTant donné que ce modèle est actuellement spécialisé dans l’industrie automobile, des recherches supplémentaires sont nécessaires sur sa généralisabilité à d’autres industries.
Les performances d’Archias peuvent dépendre de la qualité des ensembles de données LLM et de référence utilisés.
Une réponse à long terme aux techniques de jailbreak en constante évolution est nécessaire.
Une réflexion plus approfondie est nécessaire concernant la taille et la diversité de l’ensemble de données de référence présenté.
👍