Sign In

Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction

Created by
  • Haebom
Category
Empty

저자

Jordan Vice, Naveed Akhtar, Mubarak Shah, Richard Hartley, Ajmal Mian

개요

대규모 비정제 데이터셋으로 다중 모드 생성 모델을 훈련하면 사용자가 유해하거나 안전하지 않거나 논란이 있거나 문화적으로 부적절한 출력에 노출될 수 있습니다. 임베딩 및 잠재 공간에서 바람직하지 않은 개념을 제거하거나 필터링하기 위해 모델 편집이 제안되었지만, 학습된 다양체를 손상시켜 의미적으로 가까운 개념을 왜곡할 수 있습니다. 본 논문에서는 현재 모델 편집 기술의 한계를 밝히고, 심지어 양성적인 근접 개념도 정렬이 잘못될 수 있음을 보여줍니다. 안전한 콘텐츠 생성의 필요성을 해결하기 위해, 본 논문에서는 안전한 임베딩과 잠재 공간에서 조정 가능한 가중 합계를 사용하는 수정된 확산 프로세스를 활용하여 더 안전한 이미지를 생성합니다. 본 방법은 학습된 다양체의 구조적 무결성을 손상시키지 않고 전역 컨텍스트를 유지합니다. 안전한 이미지 생성 벤치마크에서 최첨단 결과를 달성하고 모델 안전성 수준에 대한 직관적인 제어를 제공합니다. 안전과 검열 사이의 절충점을 확인하여 윤리적인 AI 모델 개발에 필요한 관점을 제시합니다. 코드를 공개할 예정입니다.

시사점, 한계점

시사점:
잠재 공간에서 가중 합계를 사용하는 수정된 확산 프로세스를 통해 안전한 이미지 생성을 위한 새로운 방법 제시.
학습된 다양체의 구조적 무결성을 유지하면서 전역 컨텍스트를 보존.
안전한 이미지 생성 벤치마크에서 최첨단 결과 달성.
모델 안전성 수준에 대한 직관적인 제어 제공.
안전과 검열 사이의 절충점을 제시하여 윤리적인 AI 모델 개발에 대한 중요한 시각 제공.
코드 공개 예정.
한계점:
현재 모델 편집 기술의 한계를 명확히 밝히고 있지만, 제안된 방법이 모든 유형의 유해 콘텐츠 생성을 완벽하게 방지할 수 있는지에 대한 추가 연구 필요.
안전과 검열 사이의 절충점에 대한 더욱 심도있는 논의 필요.
특정 문화적 맥락에 대한 고려가 부족할 가능성 존재.
👍