Dans cet article, nous proposons TextDestroyer, la première méthode permettant de supprimer du texte de scène sans apprentissage ni annotation, à l'aide d'un modèle de diffusion pré-entraîné. Les modèles existants de suppression de texte de scène nécessitent des annotations et un réapprentissage complexes, et laissent des informations textuelles peu visibles, mais reconnaissables, ce qui peut compromettre la protection de la vie privée et le masquage de contenu. TextDestroyer résout ces problèmes grâce à un processus hiérarchique en trois étapes pour obtenir des masques de texte précis. La méthode mélange les zones de texte des codes latents initiaux à l'aide de distributions gaussiennes avant la reconstruction. Lors du processus de débruitage par diffusion, l'arrière-plan endommagé est restauré en référençant les clés et valeurs d'auto-attention de l'arrière-plan latent d'origine. À chaque étape d'inversion, les codes latents stockés sont remplacés lors de la reconstruction, garantissant une restauration parfaite de l'arrière-plan. Les avantages de TextDestroyer incluent : (1) Il élimine l'annotation des données, coûteuse en main-d'œuvre, et l'apprentissage gourmand en ressources. (2) Il permet une destruction de texte plus complète, évitant ainsi les traces reconnaissables. (3) Il présente une meilleure capacité de généralisation, affichant d'excellentes performances aussi bien sur les scènes réelles que sur les images générées.