Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Synthetic Voices, Real Threats: Evaluating Large Text-to-Speech Models in Generating Harmful Audio

Created by
  • Haebom
Category
Empty

저자

Guangke Chen, Yuhui Wang, Shouling Ji, Xiapu Luo, Ting Wang

개요

본 논문은 대규모 오디오-언어 모델(LALMs) 기반 텍스트-음성 변환(TTS) 시스템의 유해 콘텐츠 생성 가능성을 탐구합니다. 특히, 텍스트 입력 및 오디오 채널을 통해 유해한 콘텐츠를 생성하는 새로운 공격 기법 HARMGEN을 제안합니다. HARMGEN은 의미적 은폐 기술과 오디오-모달리티 공격을 결합하여, 유해한 콘텐츠를 생성하는 동시에 시스템의 안전 장치를 우회합니다. 또한, 상업용 TTS 시스템 및 다양한 데이터셋을 대상으로 실험을 진행하여 공격의 효과를 입증하고, 현재 사용되는 방어 기법의 취약점을 분석합니다.

시사점, 한계점

시사점:
TTS 시스템에서 유해 콘텐츠 생성의 새로운 위협인 내용 중심 악용 가능성을 제시했습니다.
HARMGEN 공격 기법을 통해 TTS 시스템의 안전 장치 및 방어 기법의 취약점을 확인했습니다.
TTS 시스템의 안전성을 강화하기 위한 다중 모달 보호의 필요성을 강조했습니다.
한계점:
특정 공격 기법(HARMGEN)에 초점을 맞추어, 다른 공격 벡터에 대한 탐구는 제한적일 수 있습니다.
실험에 사용된 TTS 시스템 및 데이터셋의 제한으로, 일반화 가능성에 한계가 있을 수 있습니다.
제안된 방어 기법에 대한 구체적인 구현 및 성능 평가는 포함되지 않았습니다.
👍