Sign In

TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models

Created by
  • Haebom
Category
Empty

저자

Ruidong Chen, Honglin Guo, Lanjun Wang, Chenyu Zhang, Weizhi Nie, An-An Liu

개요

본 논문은 텍스트-이미지 확산 모델이 사실적인 이미지 생성과 동시에 NSFW 이미지와 같은 악의적인 콘텐츠 생성 위험성을 갖는다는 문제를 해결하기 위해, 두 단계의 개념 삭제 전략을 사용하는 TRCE(Two-stage Reliable Concept Erasure) 방법을 제안합니다. 먼저, 텍스트 프롬프트에 암묵적으로 포함된 악의적인 의미를 삭제하기 위해 중요 매핑 목표(EoT 임베딩)를 식별하고, 악의적인 프롬프트를 안전한 개념을 가진 문맥적으로 유사한 프롬프트로 매핑하도록 크로스 어텐션 레이어를 최적화합니다. 다음으로, 확산 모델의 샘플링 경로의 결정론적 특성을 고려하여 대조 학습을 통해 초기 잡음 제거 예측을 안전한 방향으로 유도하여 악의적인 콘텐츠 생성을 더욱 방지합니다. 여러 악의적인 개념 삭제 벤치마크에 대한 포괄적인 평가를 통해, TRCE가 악의적인 개념을 효과적으로 삭제하면서 모델의 원래 생성 능력을 더 잘 보존함을 보여줍니다. 코드는 http://github.com/ddgoodgood/TRCE 에서 이용 가능합니다. 주의: 본 논문에는 불쾌한 내용이 포함될 수 있는 모델 생성 콘텐츠가 포함되어 있습니다.

시사점, 한계점

시사점:
텍스트-이미지 확산 모델의 악의적 콘텐츠 생성 문제에 대한 효과적인 해결책 제시.
두 단계 전략을 통해 안전성과 성능 간의 균형을 효과적으로 달성.
악의적인 의미가 암묵적으로 포함된 프롬프트에 대한 처리 능력 향상.
공개된 코드를 통해 재현성과 추가 연구 가능성 확보.
한계점:
모델 생성 콘텐츠에 불쾌한 내용이 포함될 수 있다는 점.
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 유형의 악의적 프롬프트에 대한 로버스트성 평가 필요.
EoT 임베딩 식별 과정의 상세한 설명 부족 또는 추가적인 검증 필요.
👍