Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Defense Against Model Stealing Based on Account-Aware Distribution Discrepancy

Created by
  • Haebom
Category
Empty

저자

Jian-Ping Mei, Weibin Zhang, Jie Chen, Xuyun Zhang, Tiantian Zhu

개요

본 논문은 악의적인 사용자가 상용 모델의 응답을 이용하여 저렴한 비용으로 복제 모델을 학습하는 모델 절도 공격에 대한 새로운 방어 기법을 제안합니다. 계정별 지역적 의존성을 활용하여 악의적인 사용자의 질의를 인식하는 비모수적 탐지기인 Account-aware Distribution Discrepancy (ADD)를 제안합니다. 각 클래스를 특징 공간에서 다변량 정규 분포(MVN)로 공식화하고, 가중치가 부여된 클래스별 분포 차이의 합으로 악의적인 점수를 측정합니다. ADD 탐지기는 무작위 기반 예측 중독과 결합하여 이미지 분류 모델을 위한 플러그 앤 플레이 방어 모듈인 D-ADD를 생성합니다. 광범위한 실험 결과, D-ADD는 소프트 및 하드 레이블 설정 모두에서 양성 사용자 서비스에 대한 간섭이 거의 없이 다양한 유형의 공격에 대한 강력한 방어를 달성함을 보여줍니다.

시사점, 한계점

시사점:
계정별 지역적 의존성을 활용한 새로운 비모수적 모델 절도 공격 방어 기법(ADD) 제안.
플러그 앤 플레이 방어 모듈(D-ADD)을 통해 다양한 모델에 쉽게 적용 가능.
소프트 및 하드 레이블 설정 모두에서 효과적인 방어 성능을 보임.
양성 사용자에 대한 서비스 간섭 최소화.
한계점:
제안된 방법의 효과성은 특정 이미지 분류 모델에 대한 실험 결과에 기반하며, 다른 유형의 모델이나 공격에 대한 일반화 성능은 추가 연구가 필요.
MVN 분포 가정의 적절성 및 다른 분포 가정을 사용했을 때의 성능 변화에 대한 분석 부족.
실제 서비스 환경에서의 성능 및 확장성에 대한 평가 부족.
👍