Cet article étudie comment les principaux fournisseurs de modèles de langage (LM), tels qu'OpenAI et Anthropic, peuvent appliquer des filtres pour bloquer le réglage fin des données excessivement nuisibles afin de prévenir les abus, étant donné qu'ils permettent le réglage fin des LM de pointe à des fins spécifiques. Tout comme des études précédentes ont montré que l'alignement sûr est « superficiel », nous démontrons également que les attaques de réglage fin existantes sont superficielles. Autrement dit, l'attaque ne cible que les premiers jetons de la réponse du modèle et peut donc être bloquée en générant les premiers jetons de réponse avec le modèle aligné. Cependant, dans cet article, nous présentons une méthode pour améliorer encore l'attaque en introduisant une stratégie de « refuser puis se conformer ». Cette stratégie rejette d'abord les requêtes nuisibles, puis y répond, contournant ainsi les défenses superficielles et générant des réponses nuisibles qui échappent au filtre de sortie. Les résultats expérimentaux démontrent l'efficacité de la nouvelle attaque de réglage fin sur les modèles open source et commerciaux, avec des taux de réussite de 57 % et 72 % sur GPT-4o et Claude Haiku, respectivement. Cette recherche a bénéficié d'une prime de 2 000 $ d'OpenAI et a été reconnue comme une vulnérabilité par Anthropic. En conclusion, elle démontre qu'il est erroné de croire qu'un modèle est sûr simplement parce qu'il rejette initialement une requête malveillante, et elle permet de mieux comprendre l'éventail des attaques auxquelles les API de réglage fin sont confrontées en fonctionnement.