Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models
Created by
Haebom
Category
Empty
저자
Sangwon Jang, June Suk Choi, Jaehyeong Jo, Kimin Lee, Sung Ju Hwang
개요
텍스트-이미지 확산 모델은 고품질 콘텐츠 생성에 성공했지만, 공개 데이터 의존성과 미세 조정을 위한 데이터 공유 증가로 인해 데이터 중독 공격에 취약합니다. 본 연구는 텍스트 트리거 없이 특정 브랜드 로고나 기호를 포함하는 이미지를 생성하도록 텍스트-이미지 확산 모델을 조작하는 새로운 데이터 중독 방법인 "사일런트 브랜딩 공격"을 제시합니다. 특정 시각적 패턴이 훈련 데이터에 반복적으로 포함되면 모델은 프롬프트 언급 없이도 출력에서 자연스럽게 재현하는 것을 발견했습니다. 이를 활용하여 눈에 띄지 않게 로고를 원본 이미지에 주입하고 자연스럽게 혼합되고 감지되지 않도록 하는 자동화된 데이터 중독 알고리즘을 개발했습니다. 이 오염된 데이터셋으로 훈련된 모델은 이미지 품질이나 텍스트 정렬을 저하시키지 않고 로고가 포함된 이미지를 생성합니다. 대규모 고품질 이미지 데이터셋과 스타일 개인화 데이터셋에서 두 가지 현실적인 설정에 대해 실험적으로 사일런트 브랜딩 공격을 검증하여 특정 텍스트 트리거 없이도 높은 성공률을 달성했습니다. 로고 감지를 포함한 인간 평가와 정량적 지표는 본 방법이 은밀하게 로고를 삽입할 수 있음을 보여줍니다.
시사점, 한계점
•
시사점: 텍스트-이미지 확산 모델의 데이터 중독 취약성을 보여주는 새로운 공격 기법 제시. 자연스러운 로고 삽입을 통한 은밀한 브랜딩 가능성 제시. 자동화된 데이터 중독 알고리즘 개발을 통한 효율적인 공격 수행. 다양한 데이터셋에서 높은 성공률 달성.
•
한계점: 현재 제시된 공격 기법의 방어 방법 연구 필요. 다양한 브랜드 로고 및 기호에 대한 일반화 가능성 검증 필요. 장기적인 관점에서 모델의 성능 저하 가능성에 대한 추가 연구 필요. 악의적인 목적으로의 활용 가능성에 대한 윤리적 고려 필요.