InstructAudio는 음성 및 음악 생성에 대한 지침 기반 (자연어 설명) 제어를 가능하게 하는 통합 프레임워크입니다. 음성, 음악, 대화 생성에 대해 억양(성별, 나이), 부가언어(감정, 스타일, 억양) 및 음악적(장르, 악기, 리듬, 분위기) 특성을 제어할 수 있습니다. 50K 시간의 음성 데이터와 20K 시간의 음악 데이터를 사용하여 훈련된 이 모델은 표준화된 지침-음소 입력 형식을 사용하며, 다중 작업 학습 및 교차 모달 정렬을 지원합니다. InstructAudio는 주류 TTS 및 TTM 모델과 비교하여 대부분의 메트릭에서 최적의 결과를 달성했습니다.