Embedding Hidden Adversarial Capabilities in Pre-Trained Diffusion Models
Created by
Haebom
저자
Lucas Beerens, Desmond J. Higham
개요
본 논문은 미세 조정을 통해 확산 모델에 숨겨진 적대적 기능을 직접 내장하는 새로운 공격 패러다임을 제시합니다. 이 방법은 관찰 가능한 동작을 변경하거나 추론 중 수정을 필요로 하지 않고, 기존의 특정 이미지를 타겟으로 하거나 적대적 출력을 생성하기 위해 생성 프로세스를 조정하는 접근 방식과는 다릅니다. 본 논문에서 제안하는 방법은 적대적 기능을 모델 자체에 통합하여, 원본 모델과 구별할 수 없는 고품질 이미지를 생성하지만, 이러한 이미지는 하위 분류기에서 높은 비율로 잘못 분류됩니다. 잘못 분류는 특정 출력 클래스를 대상으로 할 수 있으며, 사용자는 숨겨진 적대적 특성을 인식하지 못한 채 손상된 모델을 사용할 수 있습니다. 본 연구는 효과성과 은밀성을 입증하여 새로운 보안 문제를 제기하는 은밀한 공격 벡터를 밝혀냅니다. 외부에서 제공된 모델 사용으로 인한 위험을 노출하고, 생성 모델의 숨겨진 위협에 대한 강력한 모델 검증 및 방어 메커니즘의 시급한 필요성을 강조합니다. 코드는 https://github.com/LucasBeerens/CRAFTed-Diffusion 에서 확인할 수 있습니다.