Boosting Alignment for Post-Unlearning Text-to-Image Generative Models
Created by
Haebom
저자
Myeongseob Ko, Henry Li, Zhun Wang, Jonathan Patsenker, Jiachen T. Wang, Qinbin Li, Ming Jin, Dawn Song, Ruoxi Jia
개요
본 논문은 대규모 생성 모델에서 원치 않는 지식을 효과적으로 제거하는 기계 학습 제거(unlearning) 기법을 제안합니다. 기존 기법들의 낮은 unlearning 품질 및 텍스트-이미지 정렬 저하 문제를 해결하기 위해, 각 unlearning 반복에서 최적의 모델 업데이트를 찾아 두 목표 모두의 단조로운 개선을 보장하는 프레임워크를 제시합니다. 또한, unlearning 및 잔류 데이터셋을 전략적으로 다양화하여 성능 향상을 촉진하는 절차를 설계했습니다. 실험 결과, 제안된 방법이 최신 확산 기반 생성 모델에서 대상 클래스를 효과적으로 제거하고 Stable Diffusion 모델에서 개념을 제거하면서 모델의 원래 학습 상태와의 정렬을 유지함을 보여주며, 최첨단 기법들을 능가하는 성능을 달성했습니다.
시사점, 한계점
•
시사점:
◦
기존 기계 학습 제거 기법의 한계점인 낮은 unlearning 품질 및 텍스트-이미지 정렬 저하 문제를 효과적으로 해결하는 새로운 프레임워크 제시.
◦
각 unlearning 반복에서 최적의 모델 업데이트를 찾아 단조로운 성능 향상을 보장하는 전략 제시.