Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Antidote : Alignement de sécurité post-réglage fin pour les grands modèles de langage contre les réglages fins nuisibles

Created by
  • Haebom

Auteur

Tiansheng Huang, Gautam Bhattacharya, Pratik Joshi, Josh Kimball, Ling Liu

Contour

Cet article souligne que les modèles de langage à grande échelle (LLM) alignés de manière sécurisée sont vulnérables aux attaques de réglage fin nuisibles. Une petite quantité de données nuisibles mélangées à l'ensemble de données de réglage fin peut rompre l'alignement sécurisé du LLM. Nous démontrons que les défenses existantes sont inefficaces sous certains hyperparamètres d'apprentissage (par exemple, des taux d'apprentissage élevés ou un grand nombre d'époques d'apprentissage). Par conséquent, nous proposons Antidote, une solution post-réglage fin indépendante des hyperparamètres d'apprentissage utilisés pendant la phase de réglage fin. Antidote repose sur le principe de la suppression des paramètres nuisibles pour restaurer les modèles nuisibles suite à un comportement nuisible. Expérimentalement, nous démontrons qu'Antidote réduit les scores nuisibles tout en préservant la précision des tâches en aval grâce à une étape d'élagage unique qui supprime les pondérations nuisibles responsables de la génération de contenu nuisible. Le code est disponible sur GitHub.

Takeaways, Limitations_

Takeaways: Nous présentons une nouvelle technique de défense (Antidote) qui protège LLM contre les attaques de réglage fin nuisibles, quels que soient les hyperparamètres de la phase de réglage fin. Cette méthode simple permet de réduire les scores nuisibles tout en préservant la précision des tâches en aval.
Limitations: Des recherches supplémentaires sont nécessaires sur l'efficacité générale d'Antidote et sa robustesse face à divers types de données malveillantes. Il peut être vulnérable à certains types d'attaques ou à certaines combinaisons d'hyperparamètres. La précision peut se dégrader lors de l'élagage.
👍