본 논문은 사전 훈련된 확산 모델을 사용하여 학습 및 주석이 필요 없는 새로운 장면 텍스트 제거 방법인 TextDestroyer를 제안합니다. 기존 방법들은 복잡한 주석과 재훈련이 필요하며, 미세하지만 인식 가능한 텍스트 정보를 남겨 개인 정보 보호 및 콘텐츠 은폐에 취약했습니다. TextDestroyer는 3단계 계층적 프로세스를 통해 정확한 텍스트 마스크를 얻고, 가우시안 분포를 사용하여 잠재 시작 코드에서 텍스트 영역을 섞은 후 재구성합니다. 확산 잡음 제거 과정에서 원래 잠재값을 참조하여 손상된 배경을 복원하며, 각 반전 단계에서 저장된 잠재 코드를 사용하여 완벽한 배경 복원을 보장합니다.