Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Le raisonnement comme défense adaptative pour la sécurité

Created by
  • Haebom

Auteur

Taeyoun Kim, Fahim Tajwar, Aditi Raghunathan, Aviral Kumar

Contour

Cet article étudie comment le raisonnement adaptatif d'allocation de temps de test permet d'entraîner des modèles robustes aux vulnérabilités de sécurité, améliorant ainsi les performances des LLM dans des domaines faciles à vérifier, tels que les mathématiques et le code. Nous présentons une recette, $\textit{TARS}$ (Training Adaptive Reasoners for Safety), une approche d'apprentissage par renforcement (RL) qui entraîne les modèles à raisonner sur la sécurité à l'aide de signaux de récompense et de traces de processus de pensée équilibrant sécurité et achèvement des tâches. TARS intègre trois choix de conception importants : (1) une phase SFT « légère » de démarrage à chaud ; (2) un mélange d'invites nuisibles, inoffensives et ambiguës pour éviter les comportements de raccourci tels que le rejet excessif ; et (3) une fonction de récompense pour éviter la dégradation des capacités de raisonnement pendant l'entraînement. Les modèles entraînés avec TARS présentent un comportement adaptatif en consacrant davantage de ressources de calcul aux requêtes ambiguës, offrant ainsi un meilleur compromis entre sécurité et rejet. Ils distinguent également mieux les invites sûres et non sûres et offrent une plus grande robustesse face aux attaques en boîte blanche (par exemple, GCG) et en boîte noire (par exemple, PAIR). Globalement, cette étude fournit une solution efficace et ouverte pour entraîner les LLM à partir de requêtes jailbreakées et malveillantes grâce au raisonnement basé sur les invites.

Takeaways, Limitations

Takeaways:
Nous présentons une méthode efficace pour améliorer la robustesse du LLM contre les vulnérabilités de sécurité en utilisant la méthode d'inférence d'allocation informatique adaptative.
$\Textit{TARS}$ présente une stratégie de formation qui équilibre la sécurité et l'achèvement des tâches grâce à des recettes.
Améliorer les compromis entre sécurité et rejet grâce à une allocation adaptative des ressources de calcul pour les requêtes ambiguës.
Robustesse améliorée contre les attaques de type boîte blanche et boîte noire.
Capacité améliorée à distinguer les invites sûres et dangereuses.
Fournit des recettes publiques pour améliorer les défenses de LLM contre le jailbreak et les requêtes malveillantes.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la recette $\textit{TARS}$ et son applicabilité à diverses architectures LLM.
Difficultés dans la conception et le réglage des fonctions de récompense.
Absence d’évaluation complète des différents types de vulnérabilités en matière de sécurité.
Des recherches supplémentaires sont nécessaires sur les problèmes et les limites potentiels qui peuvent survenir lors de l’application dans des environnements réels.
👍