Sparse Autoencoder as a Zero-Shot Classifier for Concept Erasing in Text-to-Image Diffusion Models
Created by
Haebom
Category
Empty
저자
Zhihua Tian, Sirun Nan, Ming Xu, Shengfang Zhai, Wenjie Qu, Jian Liu, Kui Ren, Ruoxi Jia, Jiaheng Zhang
개요
텍스트-이미지(T2I) 확산 모델은 고품질 이미지 생성에서 놀라운 발전을 이루었지만, 유해하거나 오해의 소지를 불러일으키는 콘텐츠 생성에 대한 우려도 제기하고 있습니다. 재학습 없이 원치 않는 개념을 제거하기 위한 광범위한 접근 방식이 제안되었지만, 일반적인 생성 작업의 성능을 저하시키는 부작용이 있습니다. 본 연구에서는 전체 성능을 유지하면서 T2I 확산 모델에서 정확한 개념 제거를 가능하게 하는 새로운 프레임워크인 Interpret then Deactivate(ItD)를 제안합니다. ItD는 먼저 희소 자동 인코더(SAE)를 사용하여 각 개념을 여러 특징의 조합으로 해석합니다. 타겟 개념과 관련된 특정 특징을 영구적으로 비활성화함으로써, SAE를 입력 프롬프트에 타겟 개념이 포함되어 있는지 식별하는 제로샷 분류기로 재사용하여 확산 모델에서 선택적 개념 제거를 가능하게 합니다. 또한 ItD가 추가적인 훈련 없이 여러 개념을 제거하도록 쉽게 확장될 수 있음을 보여줍니다. 유명인의 신원, 예술적 스타일 및 명시적 콘텐츠에 걸친 포괄적인 실험은 타겟 개념을 제거하는 데 있어 ItD의 효과와 정상적인 개념 생성에 대한 간섭이 없음을 보여줍니다. 또한 ItD는 콘텐츠 필터를 우회하도록 설계된 적대적 프롬프트에도 강합니다. 코드는 https://github.com/NANSirun/Interpret-then-deactivate 에서 이용 가능합니다.