Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les attaques rapides révèlent une suppression superficielle des connaissances dans les méthodes de désapprentissage

Created by
  • Haebom

Auteur

Yeonwoo Jang, Shariqah Hossain, Ashwin Sreevatsa, Diogo Cruz

Contour

Cet article démontre que certaines méthodes de désapprentissage par apprentissage automatique sont vulnérables aux attaques par invites simples. Nous évaluons systématiquement huit techniques de désapprentissage dans trois familles de modèles, évaluant leur capacité à récupérer des connaissances présumées non apprises grâce à des analyses basées sur les sorties, des analyses logit et des analyses de sondage. Alors que des méthodes telles que RMU et TAR présentent un désapprentissage robuste, ELM est vulnérable à certaines attaques par invites (par exemple, l'ajout d'un texte de remplissage en hindi à l'invite initiale permet d'obtenir une précision de 57,3 %). L'analyse logit révèle que les modèles non appris sont moins susceptibles de masquer des connaissances par des modifications du format des réponses, compte tenu de la forte corrélation entre la sortie et la précision logit. Ces résultats remettent en question les hypothèses conventionnelles sur l'efficacité du désapprentissage et soulignent la nécessité d'un cadre d'évaluation fiable capable de distinguer la suppression réelle des connaissances de la suppression superficielle des sorties. Afin de faciliter la poursuite des recherches, nous présentons un cadre d'évaluation facilitant l'évaluation des techniques de désapprentissage pour récupérer des connaissances non apprises.

Takeaways, Limitations

Takeaways: En révélant que certaines techniques de désapprentissage sont vulnérables aux attaques rapides, nous soulevons la nécessité de réexaminer l'efficacité du désapprentissage. Nous distinguons clairement les techniques de désapprentissage robustes, telles que RMU et TAR, des techniques vulnérables, telles que ELM. Le cadre d'évaluation publié peut contribuer aux recherches futures.
Limitations: Les types de modèles et les techniques de désapprentissage utilisés dans l'évaluation peuvent être limités. Une analyse complète des différents types d'attaques rapides peut faire défaut. Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité aux applications réelles.
👍