Sign In

CBW: Towards Dataset Ownership Verification for Speaker Verification via Clustering-based Backdoor Watermarking

Created by
  • Haebom
Category
Empty

저자

Yiming Li, Kaiying Yan, Shuo Shao, Tongqing Zhai, Shu-Tao Xia, Zhan Qin, Dacheng Tao

개요

본 논문은 딥러닝 기반 화자 인증 분야에서 대규모 음성 데이터셋의 무단 사용을 방지하기 위한 새로운 데이터셋 소유권 검증 방법인 클러스터링 기반 백도어 워터마킹(CBW)을 제안한다. CBW는 데이터셋에 여러 트리거 패턴을 심어 유사한 샘플은 같은 트리거에, 이질적인 샘플은 다른 트리거에 가깝도록 함으로써, 워터마킹된 데이터셋으로 학습된 모델이 트리거가 포함된 입력에 대해 특정 오분류 행동을 보이도록 한다. 소유권 검증은 가설 검정 기반 프레임워크를 통해 의심스러운 모델이 예상되는 백도어 행동을 보이는지 통계적으로 평가하는 방식으로 이루어진다. 벤치마크 데이터셋을 이용한 실험을 통해 제안 방법의 효과성과 적응형 공격에 대한 강건성을 검증하였다. 실험 재현을 위한 코드는 깃허브에 공개되어 있다.

시사점, 한계점

시사점:
대규모 음성 데이터셋의 무단 사용 문제 해결에 기여할 수 있는 새로운 방법 제시
블랙박스 설정에서도 데이터셋 소유권 검증이 가능
적응형 공격에 대한 강건성을 갖춘 방법 제안
실험 코드 공개를 통한 재현성 확보
한계점:
제안된 방법의 실제 현장 적용 가능성 및 효율성에 대한 추가적인 연구 필요
다양한 유형의 적응형 공격에 대한 추가적인 평가 필요
워터마킹 과정에서 데이터셋 성능 저하 가능성 및 그 정도에 대한 분석 필요
👍