[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

FalseReject : une ressource pour améliorer la sécurité contextuelle et atténuer les refus excessifs dans les LLM grâce au raisonnement structuré

Created by
  • Haebom

Auteur

Zhehao Zhang, Weijie Xu, Fanyou Wu, Chandan K. Reddy

Contour

Dans cet article, nous proposons une ressource complète appelée FalseReject, composée de 16 000 questions apparemment dangereuses et de réponses structurées réparties sur 44 catégories liées à la sécurité. Cette ressource vise à résoudre le problème des approches axées sur la sécurité des modèles de langage à grande échelle (MLH), qui rejettent excessivement même des questions anodines. Nous présentons un cadre d'interaction multi-agents antagoniste basé sur des graphes pour générer des invites diverses et complexes, et fournir des réponses structurées avec des inférences explicites afin d'aider le modèle à distinguer avec précision les contextes sûrs des contextes dangereux. FalseReject comprend des jeux de données d'entraînement personnalisés et des jeux de tests de référence annotés par des humains, tant pour les modèles standard orientés directives que pour les modèles pilotés par inférence. Nous démontrons le problème persistant des rejets excessifs grâce à une analyse comparative approfondie de 29 LLM de pointe (SOTA), et démontrons expérimentalement que l'optimisation de l'apprentissage supervisé à l'aide de FalseReject réduit considérablement les rejets inutiles sans compromettre la sécurité globale ni les fonctions générales du langage.

Takeaways, Limitations

Takeaways:
Nous présentons un nouvel ensemble de données (FalseReject) et un cadre de formation pour résoudre le problème de rejet excessif dans LLM.
Validation de l'efficacité d'un cadre d'interaction multi-agents antagonistes basé sur des graphes pour générer des invites diverses et complexes.
Nous démontrons expérimentalement que le réglage fin à l’aide de FalseReject améliore simultanément la sécurité et la convivialité de LLM.
Fournit des solutions générales applicables à différents types de LLM.
Limitations:
Une validation supplémentaire est nécessaire sur la taille et la diversité de l'ensemble de données FalseReject.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation du cadre proposé.
Une évaluation supplémentaire des performances et une vérification de la sécurité dans des environnements réels sont nécessaires.
Il peut y avoir un biais envers certains modèles linguistiques ou certains types de questions.
👍