Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Sparse Autoencoder as a Zero-Shot Classifier for Concept Erasing in Text-to-Image Diffusion Models

Created by
  • Haebom
Category
Empty

저자

Zhihua Tian, Sirun Nan, Ming Xu, Shengfang Zhai, Wenjie Qu, Jian Liu, Kui Ren, Ruoxi Jia, Jiaheng Zhang

개요

텍스트-이미지(T2I) 확산 모델은 고품질 이미지 생성에서 놀라운 발전을 이루었지만, 유해하거나 오해의 소지를 불러일으키는 콘텐츠 생성에 대한 우려도 제기하고 있습니다. 재학습 없이 원치 않는 개념을 제거하기 위한 광범위한 접근 방식이 제안되었지만, 일반적인 생성 작업의 성능을 저하시키는 부작용이 있습니다. 본 연구에서는 전체 성능을 유지하면서 T2I 확산 모델에서 정확한 개념 제거를 가능하게 하는 새로운 프레임워크인 Interpret then Deactivate(ItD)를 제안합니다. ItD는 먼저 희소 자동 인코더(SAE)를 사용하여 각 개념을 여러 특징의 조합으로 해석합니다. 타겟 개념과 관련된 특정 특징을 영구적으로 비활성화함으로써, SAE를 입력 프롬프트에 타겟 개념이 포함되어 있는지 식별하는 제로샷 분류기로 재사용하여 확산 모델에서 선택적 개념 제거를 가능하게 합니다. 또한 ItD가 추가적인 훈련 없이 여러 개념을 제거하도록 쉽게 확장될 수 있음을 보여줍니다. 유명인의 신원, 예술적 스타일 및 명시적 콘텐츠에 걸친 포괄적인 실험은 타겟 개념을 제거하는 데 있어 ItD의 효과와 정상적인 개념 생성에 대한 간섭이 없음을 보여줍니다. 또한 ItD는 콘텐츠 필터를 우회하도록 설계된 적대적 프롬프트에도 강합니다. 코드는 https://github.com/NANSirun/Interpret-then-deactivate 에서 이용 가능합니다.

시사점, 한계점

시사점:
T2I 모델에서 원치 않는 개념을 정확하게 제거하는 새로운 방법(ItD) 제시
기존 방법의 성능 저하 문제 해결
제로샷 분류기를 활용하여 추가 학습 없이 다중 개념 제거 가능
적대적 프롬프트에 대한 강건성
고품질 이미지 생성 성능 유지
한계점:
SAE의 성능에 ItD의 성능이 의존적일 수 있음.
특정 개념에 대한 SAE의 해석 정확도에 따라 성능이 달라질 수 있음.
새로운 개념 제거를 위해서는 SAE를 재학습하거나 수정해야 할 수 있음.
모든 유형의 원치 않는 콘텐츠 제거에 대한 일반화 성능에 대한 추가 연구 필요.
👍