본 논문은 대규모 생성 모델에서 안전하지 않은 콘텐츠 생성을 방지하기 위한 새로운 프레임워크인 Classifier-Guided Concept Erasure (CGCE)를 소개합니다. CGCE는 모델의 가중치를 변경하지 않고 텍스트 임베딩 기반의 경량 분류기를 사용하여 유해 개념을 감지하고 프롬프트를 정제함으로써, 다양한 생성 모델에서 강력한 개념 삭제를 제공합니다. 이 방식은 안전성과 성능 간의 균형을 유지하며, 광범위한 적대적 공격에 대한 견고성을 제공합니다.