대규모 비정제 데이터셋으로 다중 모드 생성 모델을 훈련하면 사용자가 유해하거나 안전하지 않거나 논란이 있거나 문화적으로 부적절한 출력에 노출될 수 있습니다. 임베딩 및 잠재 공간에서 바람직하지 않은 개념을 제거하거나 필터링하기 위해 모델 편집이 제안되었지만, 학습된 다양체를 손상시켜 의미적으로 가까운 개념을 왜곡할 수 있습니다. 본 논문에서는 현재 모델 편집 기술의 한계를 밝히고, 심지어 양성적인 근접 개념도 정렬이 잘못될 수 있음을 보여줍니다. 안전한 콘텐츠 생성의 필요성을 해결하기 위해, 본 논문에서는 안전한 임베딩과 잠재 공간에서 조정 가능한 가중 합계를 사용하는 수정된 확산 프로세스를 활용하여 더 안전한 이미지를 생성합니다. 본 방법은 학습된 다양체의 구조적 무결성을 손상시키지 않고 전역 컨텍스트를 유지합니다. 안전한 이미지 생성 벤치마크에서 최첨단 결과를 달성하고 모델 안전성 수준에 대한 직관적인 제어를 제공합니다. 안전과 검열 사이의 절충점을 확인하여 윤리적인 AI 모델 개발에 필요한 관점을 제시합니다. 코드를 공개할 예정입니다.