Cet article démontre que certaines méthodes de désapprentissage par apprentissage automatique sont vulnérables aux attaques par invites simples. Nous évaluons systématiquement huit techniques de désapprentissage dans trois familles de modèles, évaluant leur capacité à récupérer des connaissances présumées non apprises grâce à des analyses basées sur les sorties, des analyses logit et des analyses de sondage. Alors que des méthodes telles que RMU et TAR présentent un désapprentissage robuste, ELM est vulnérable à certaines attaques par invites (par exemple, l'ajout d'un texte de remplissage en hindi à l'invite initiale permet d'obtenir une précision de 57,3 %). L'analyse logit révèle que les modèles non appris sont moins susceptibles de masquer des connaissances par des modifications du format des réponses, compte tenu de la forte corrélation entre la sortie et la précision logit. Ces résultats remettent en question les hypothèses conventionnelles sur l'efficacité du désapprentissage et soulignent la nécessité d'un cadre d'évaluation fiable capable de distinguer la suppression réelle des connaissances de la suppression superficielle des sorties. Afin de faciliter la poursuite des recherches, nous présentons un cadre d'évaluation facilitant l'évaluation des techniques de désapprentissage pour récupérer des connaissances non apprises.