본 논문은 사전 훈련된 확산 모델을 이용하여, 훈련 및 어노테이션 없이 장면 텍스트를 제거하는 최초의 방법인 TextDestroyer를 제안합니다. 기존의 장면 텍스트 제거 모델은 복잡한 어노테이션과 재훈련이 필요하며, 희미하지만 인식 가능한 텍스트 정보를 남겨 개인 정보 보호 및 콘텐츠 은폐를 저해할 수 있습니다. TextDestroyer는 정확한 텍스트 마스크를 얻기 위해 3단계 계층적 프로세스를 사용하여 이러한 문제를 해결합니다. 본 방법은 재구성 전에 가우시안 분포를 사용하여 잠재 시작 코드에서 텍스트 영역을 섞습니다. 확산 탈잡음 과정 동안 원래 잠재값에서 자기 주의 키와 값을 참조하여 손상된 배경을 복원합니다. 각 반전 단계에서 저장된 잠재 코드는 재구성 중에 교체되어 완벽한 배경 복원을 보장합니다. TextDestroyer의 장점은 다음과 같습니다. (1) 노동 집약적인 데이터 어노테이션과 자원 집약적인 훈련을 제거합니다. (2) 더 철저한 텍스트 파괴를 달성하여 인식 가능한 흔적을 방지합니다. (3) 실제 장면과 생성된 이미지 모두에서 우수한 성능을 보여주는 더 나은 일반화 능력을 보여줍니다.