Fantastic Targets for Concept Erasure in Diffusion Models and Where To Find Them
Created by
Haebom
저자
Anh Bui, Trang Vu, Long Vuong, Trung Le, Paul Montague, Tamas Abraham, Junae Kim, Dinh Phung
개요
본 논문은 확산 모델에서 유해 콘텐츠 생성 위험을 완화하기 위해 개념 삭제 기법을 개선하는 연구를 다룹니다. 기존 연구들은 특정 개념을 중립적인 개념이나 빈 텍스트 프롬프트와 같은 고정된 일반적인 개념으로 매핑하는 방식을 사용했으나, 이는 한 개념 삭제가 다른 개념에 미치는 영향을 고려하지 못하는 한계가 있습니다. 본 논문에서는 개념 공간을 그래프로 모델링하고, 개념 삭제의 영향을 경험적으로 분석하여 개념 삭제의 영향이 국지적인 영역에 국한됨을 발견했습니다. 이러한 통찰을 바탕으로, 부작용을 최소화하기 위해 각각의 원치 않는 개념에 맞춰 최적의 목표 개념을 동적으로 선택하는 적응형 유도 삭제(AGE) 방법을 제안합니다. 실험 결과, AGE는 관련 없는 개념을 보존하면서 효과적인 삭제 성능을 유지하는 측면에서 최첨단 삭제 방법보다 성능이 월등히 뛰어남을 보여줍니다. 코드는 GitHub에 공개되어 있습니다.