TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models
Created by
Haebom
Category
Empty
저자
Ruidong Chen, Honglin Guo, Lanjun Wang, Chenyu Zhang, Weizhi Nie, An-An Liu
개요
본 논문은 텍스트-이미지 확산 모델이 사실적인 이미지 생성과 동시에 NSFW 이미지와 같은 악의적인 콘텐츠 생성 위험성을 갖는다는 문제를 해결하기 위해, 두 단계의 개념 삭제 전략을 사용하는 TRCE(Two-stage Reliable Concept Erasure) 방법을 제안합니다. 먼저, 텍스트 프롬프트에 암묵적으로 포함된 악의적인 의미를 삭제하기 위해 중요 매핑 목표(EoT 임베딩)를 식별하고, 악의적인 프롬프트를 안전한 개념을 가진 문맥적으로 유사한 프롬프트로 매핑하도록 크로스 어텐션 레이어를 최적화합니다. 다음으로, 확산 모델의 샘플링 경로의 결정론적 특성을 고려하여 대조 학습을 통해 초기 잡음 제거 예측을 안전한 방향으로 유도하여 악의적인 콘텐츠 생성을 더욱 방지합니다. 여러 악의적인 개념 삭제 벤치마크에 대한 포괄적인 평가를 통해, TRCE가 악의적인 개념을 효과적으로 삭제하면서 모델의 원래 생성 능력을 더 잘 보존함을 보여줍니다. 코드는 http://github.com/ddgoodgood/TRCE 에서 이용 가능합니다. 주의: 본 논문에는 불쾌한 내용이 포함될 수 있는 모델 생성 콘텐츠가 포함되어 있습니다.