본 논문은 딥러닝 기반 화자 인증에서 대규모 음성 데이터셋의 무단 사용을 방지하기 위한 새로운 데이터셋 소유권 검증 방법을 제안합니다. 제안하는 방법은 클러스터링 기반 백도어 워터마킹(CBW)을 사용하여, 블랙박스 설정에서 보호된 데이터셋으로 훈련된 의심스러운 제3자 모델을 식별합니다. CBW는 데이터셋 워터마킹과 소유권 검증 두 단계로 구성됩니다. 워터마킹 단계에서는 여러 트리거 패턴을 데이터셋에 심어 유사한 샘플은 같은 트리거에, 이질적인 샘플은 다른 트리거에 가깝게 만듭니다. 소유권 검증 단계에서는 가설 검정 기반 프레임워크를 사용하여 의심스러운 모델이 예상되는 백도어 동작을 보이는지 통계적으로 평가합니다. 벤치마크 데이터셋을 사용한 광범위한 실험을 통해 제안 방법의 효과성과 적응형 공격에 대한 강건성을 검증했습니다.
시사점, 한계점
•
시사점:
◦
딥러닝 기반 화자 인증에서 중요한 지적 재산인 대규모 음성 데이터셋의 무단 사용을 효과적으로 방지할 수 있는 새로운 방법 제시.