Fantastic Targets for Concept Erasure in Diffusion Models and Where To Find Them
Created by
Haebom
Category
Empty
저자
Anh Bui, Trang Vu, Long Vuong, Trung Le, Paul Montague, Tamas Abraham, Junae Kim, Dinh Phung
개요
본 논문은 확산 모델에서 유해 콘텐츠 생성 위험을 완화하기 위한 개념 삭제 기술을 개선하는 연구입니다. 기존 연구들은 특정 개념을 중립적인 개념이나 빈 프롬프트 등 고정된 대상 개념으로 매핑하는 방식을 사용했으나, 이는 한 개념 삭제가 다른 개념에 미치는 영향을 고려하지 못하는 한계를 지닙니다. 본 논문에서는 개념 공간을 그래프로 모델링하고, 개념 삭제의 영향을 경험적으로 분석하여 개념 삭제의 영향이 국소 영역에 국한된다는 것을 밝힙니다. 이러한 통찰력을 바탕으로, 각각의 원치 않는 개념에 맞춰 최적의 대상 개념을 동적으로 선택하여 의도하지 않은 부작용을 최소화하는 적응형 유도 삭제(AGE) 방법을 제안합니다. 실험 결과, AGE는 관련 없는 개념을 보존하면서 효과적인 삭제 성능을 유지하는 측면에서 최첨단 삭제 방법보다 뛰어난 성능을 보입니다.