텍스트-이미지 생성 모델의 악의적인 입력에 대한 유해 콘텐츠 생성 문제를 해결하기 위해, 모델 미세 조정과 부정적 프롬프트를 활용하는 두 가지 접근 방식의 비효율성을 발견하고, 이를 해결하기 위해 개념 반전을 통해 얻은 암묵적 부정 임베딩으로 부정적 프롬프트를 대체하는 방법을 제안한다. 이는 기존 접근 방식에 쉽게 통합될 수 있으며, 누드 및 폭력 벤치마크에서 방어 성공률을 향상시키면서 입력 프롬프트의 핵심 의미를 유지하는 것으로 실험적으로 검증되었다.