본 논문은 대규모 오디오-언어 모델(LALMs) 기반 텍스트-음성 변환(TTS) 시스템의 유해 콘텐츠 생성 가능성을 탐구합니다. 특히, 텍스트 입력 및 오디오 채널을 통해 유해한 콘텐츠를 생성하는 새로운 공격 기법 HARMGEN을 제안합니다. HARMGEN은 의미적 은폐 기술과 오디오-모달리티 공격을 결합하여, 유해한 콘텐츠를 생성하는 동시에 시스템의 안전 장치를 우회합니다. 또한, 상업용 TTS 시스템 및 다양한 데이터셋을 대상으로 실험을 진행하여 공격의 효과를 입증하고, 현재 사용되는 방어 기법의 취약점을 분석합니다.