Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models

Created by
  • Haebom
Category
Empty

저자

Sangwon Jang, June Suk Choi, Jaehyeong Jo, Kimin Lee, Sung Ju Hwang

개요

텍스트-이미지 확산 모델은 고품질 콘텐츠 생성에 성공했지만, 공개 데이터 의존성과 미세 조정을 위한 데이터 공유 증가로 인해 데이터 중독 공격에 취약합니다. 본 연구는 텍스트 트리거 없이 특정 브랜드 로고나 기호를 포함하는 이미지를 생성하도록 텍스트-이미지 확산 모델을 조작하는 새로운 데이터 중독 방법인 "사일런트 브랜딩 공격"을 제시합니다. 특정 시각적 패턴이 훈련 데이터에 반복적으로 포함되면 모델은 프롬프트 언급 없이도 출력에서 자연스럽게 재현하는 것을 발견했습니다. 이를 활용하여 눈에 띄지 않게 로고를 원본 이미지에 주입하고 자연스럽게 혼합되고 감지되지 않도록 하는 자동화된 데이터 중독 알고리즘을 개발했습니다. 이 오염된 데이터셋으로 훈련된 모델은 이미지 품질이나 텍스트 정렬을 저하시키지 않고 로고가 포함된 이미지를 생성합니다. 대규모 고품질 이미지 데이터셋과 스타일 개인화 데이터셋에서 두 가지 현실적인 설정에 대해 실험적으로 사일런트 브랜딩 공격을 검증하여 특정 텍스트 트리거 없이도 높은 성공률을 달성했습니다. 로고 감지를 포함한 인간 평가와 정량적 지표는 본 방법이 은밀하게 로고를 삽입할 수 있음을 보여줍니다.

시사점, 한계점

시사점: 텍스트-이미지 확산 모델의 데이터 중독 취약성을 보여주는 새로운 공격 기법 제시. 자연스러운 로고 삽입을 통한 은밀한 브랜딩 가능성 제시. 자동화된 데이터 중독 알고리즘 개발을 통한 효율적인 공격 수행. 다양한 데이터셋에서 높은 성공률 달성.
한계점: 현재 제시된 공격 기법의 방어 방법 연구 필요. 다양한 브랜드 로고 및 기호에 대한 일반화 가능성 검증 필요. 장기적인 관점에서 모델의 성능 저하 가능성에 대한 추가 연구 필요. 악의적인 목적으로의 활용 가능성에 대한 윤리적 고려 필요.
👍