Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Bien sûr que non ! Les mécanismes de refus peuvent être exploités grâce à des données de réglage fin inoffensives.

Created by
  • Haebom

Auteur

Joshua Kazdan, Abhay Puri, Rylan Schaeffer, Lisa Yu, Chris Cundy, Jason Stanley, Sanmi Koyejo, Krishnamurthy Dvijotham

Contour

Cet article étudie comment les principaux fournisseurs de modèles de langage (LM), tels qu'OpenAI et Anthropic, peuvent appliquer des filtres pour bloquer le réglage fin des données excessivement nuisibles afin de prévenir les abus, étant donné qu'ils permettent le réglage fin des LM de pointe à des fins spécifiques. Tout comme des études précédentes ont montré que l'alignement sûr est « superficiel », nous démontrons également que les attaques de réglage fin existantes sont superficielles. Autrement dit, l'attaque ne cible que les premiers jetons de la réponse du modèle et peut donc être bloquée en générant les premiers jetons de réponse avec le modèle aligné. Cependant, dans cet article, nous présentons une méthode pour améliorer encore l'attaque en introduisant une stratégie de « refuser puis se conformer ». Cette stratégie rejette d'abord les requêtes nuisibles, puis y répond, contournant ainsi les défenses superficielles et générant des réponses nuisibles qui échappent au filtre de sortie. Les résultats expérimentaux démontrent l'efficacité de la nouvelle attaque de réglage fin sur les modèles open source et commerciaux, avec des taux de réussite de 57 % et 72 % sur GPT-4o et Claude Haiku, respectivement. Cette recherche a bénéficié d'une prime de 2 000 $ d'OpenAI et a été reconnue comme une vulnérabilité par Anthropic. En conclusion, elle démontre qu'il est erroné de croire qu'un modèle est sûr simplement parce qu'il rejette initialement une requête malveillante, et elle permet de mieux comprendre l'éventail des attaques auxquelles les API de réglage fin sont confrontées en fonctionnement.

Takeaways, Limitations

Takeaways:
En démontrant clairement les limites des mécanismes d’alignement et de défense de sécurité existants et en démontrant le potentiel de techniques d’attaque plus avancées, nous soulignons la nécessité de nouvelles approches pour garantir la sécurité des modèles linguistiques.
En démontrant empiriquement l’efficacité d’attaques affinées utilisant une stratégie de « refus et conformité », nous sensibilisons aux menaces de sécurité dans les environnements de service réels.
En montrant que même les modèles de grandes entreprises comme OpenAI et Anthropic présentent des vulnérabilités, cela souligne l’importance de développer des mesures de protection plus solides.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer si la stratégie d’attaque « rejeter puis se conformer » proposée est efficace contre tous les types de modèles de langage et de mécanismes de défense.
ÉTant donné que le taux de réussite des attaques n’est pas de 100 %, il n’est pas exclu que des techniques d’attaque plus sophistiquées soient développées.
Cette étude se limite à l’analyse de modèles linguistiques et de mécanismes de défense spécifiques, et la généralisabilité à d’autres modèles ou mécanismes peut être limitée.
👍