Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Amélioration des résultats LLM contre les attaques de jailbreak grâce à l'intégration de modèles experts

Created by
  • Haebom

Auteur

Tatia Tsmindashvili, Ana Kolkhidashvili, Dachi Kurtskhalia, Nino Maghlakelidze, Elene Mekvabishvili, Guram Dentoshvili, Orkhan Shamilov, Zaal Gachechiladze, Steven Saporta, David Dachi Choladze

Contour

Cet article présente une nouvelle approche pour corriger les vulnérabilités de sécurité, notamment le jailbreak et l'injection d'invites, qui surviennent lors de l'utilisation de modèles de langage à grande échelle (LLM) en environnements de production. Nous soulignons les limites des approches de réglage fin et d'API existantes et présentons Archias, un modèle expert spécifique à un domaine. Archias catégorise les requêtes des utilisateurs en plusieurs catégories : spécifiques au domaine, malveillantes, injectées par prix, injectées par invites et hors domaine ; il intègre ces résultats aux invites du LLM afin de générer des réponses plus pertinentes. Nous validons notre approche en construisant un ensemble de données de référence axé sur l'industrie automobile et contribuons à l'avancement de la recherche en le rendant public.

Takeaways, Limitations

Takeaways:
Mesures d'amélioration de la sécurité LLM spécifiques au domaine présentées : Réponse efficace aux menaces de sécurité spécifiques au domaine via Archias.
Améliorer la compréhension des intentions des utilisateurs et générer des réponses appropriées : exploiter les résultats de classification d'Archias pour améliorer la précision et la sécurité des réponses de LLM.
Démontrer l'utilité des modèles à petite échelle : la petite taille d'Archias permet une personnalisation facile pour une variété d'industries et d'objectifs.
Publication des ensembles de données de référence de l’industrie automobile : contribuer aux progrès de la recherche et du développement.
Limitations:
ÉTant donné que ce modèle est spécialisé dans l’industrie automobile, il est nécessaire de vérifier sa généralisabilité à d’autres domaines.
Les performances d'Archias peuvent dépendre du LLM et de l'ensemble de données utilisés.
Des mises à jour et des améliorations continues sont nécessaires pour faire face aux nouvelles techniques de jailbreaking et aux attaques par injection rapide.
👍