Set You Straight: Auto-Steering Denoising Trajectories to Sidestep Unwanted Concepts
Created by
Haebom
저자
Leyang Li, Shilin Lu, Yan Ren, Adams Wai-Kin Kong
개요
본 논문은 텍스트-이미지 모델의 윤리적인 배포를 위해 유해하거나 부적절한 콘텐츠 생성을 방지하는 효과적인 기술을 제시합니다. 기존의 미세조정 기반 개념 삭제 방법의 한계점을 극복하기 위해, ANT(Automatically guides deNoising Trajectories)라는 새로운 미세조정 프레임워크를 제안합니다. ANT는 분류기 없는 안내의 조건 방향을 중간 및 후반 탈잡음 단계에서 반전시키는 핵심 아이디어를 기반으로 합니다. 이를 통해 초기 단계의 구조적 무결성을 유지하면서 정확한 콘텐츠 수정을 가능하게 합니다. 또한, 원치 않는 개념에 가장 크게 기여하는 중요한 매개변수를 정확하게 식별하는 증강 강화 가중치 중요도 맵을 제안하여 단일 개념 삭제의 효율성을 높입니다. 다중 개념 삭제를 위해서는 다용도 플러그 앤 플레이 방식의 목적 함수를 제공합니다. 실험 결과, ANT는 단일 및 다중 개념 삭제 모두에서 최첨단 성능을 달성하여 생성 충실도를 저해하지 않고 고품질의 안전한 출력을 제공함을 보여줍니다. 코드는 https://github.com/lileyang1210/ANT 에서 이용 가능합니다.