대규모 생성 모델의 안전성 문제를 해결하기 위해, 유해 콘텐츠 생성을 방지하는 개념 삭제(concept erasure) 방법이 개발되었지만, 적대적 공격에 취약하고 안전성과 성능 간의 trade-off가 존재합니다. 본 논문에서는 원본 모델의 가중치를 변경하지 않고도 다양한 생성 모델에 강력한 개념 삭제를 제공하는 효율적인 플러그 앤 플레이 프레임워크인 Classifier-Guided Concept Erasure (CGCE)를 제안합니다. CGCE는 텍스트 임베딩에서 작동하는 경량 분류기를 사용하여 원치 않는 개념이 포함된 프롬프트를 감지하고 개선합니다. 이 방법은 여러 분류기의 지침을 집계하여 다중 개념 삭제를 가능하게 합니다. 유해한 임베딩만 추론 시간에 수정하여 유해 콘텐츠 생성을 방지하고, 안전한 프롬프트에 대한 모델의 원래 품질을 유지합니다. CGCE는 다양한 red-teaming 공격에 대해 최고 수준의 견고성을 달성하고 안전성과 성능 사이에서 우수한 균형을 보여줍니다.