Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

InstructAudio: Unified speech and music generation with natural language instruction

Created by
  • Haebom
Category
Empty

저자

Chunyu Qiang, Kang Yin, Xiaopeng Wang, Yuzhe Liang, Jiahui Zhao, Ruibo Fu, Tianrui Wang, Cheng Gong, Chen Zhang, Longbiao Wang, Jianwu Dang

개요

InstructAudio는 음성 및 음악 생성에 대한 지침 기반 (자연어 설명) 제어를 가능하게 하는 통합 프레임워크입니다. 음성, 음악, 대화 생성에 대해 억양(성별, 나이), 부가언어(감정, 스타일, 억양) 및 음악적(장르, 악기, 리듬, 분위기) 특성을 제어할 수 있습니다. 50K 시간의 음성 데이터와 20K 시간의 음악 데이터를 사용하여 훈련된 이 모델은 표준화된 지침-음소 입력 형식을 사용하며, 다중 작업 학습 및 교차 모달 정렬을 지원합니다. InstructAudio는 주류 TTS 및 TTM 모델과 비교하여 대부분의 메트릭에서 최적의 결과를 달성했습니다.

시사점, 한계점

음성 및 음악 생성을 위한 최초의 지침 제어 통합 프레임워크입니다.
억양, 부가언어 및 음악적 특성을 자연어 지침으로 제어할 수 있습니다.
영어 및 중국어로 표현력 있는 음성, 음악 및 대화 생성을 지원합니다.
다중 작업 학습 및 교차 모달 정렬을 가능하게 합니다.
50K 시간의 음성 및 20K 시간의 음악 데이터로 훈련되었습니다.
한계점은 구체적으로 명시되지 않았습니다.
👍