Sign In

InspireMusic: Integrating Super Resolution and Large Language Model for High-Fidelity Long-Form Music Generation

Created by
  • Haebom
Category
Empty

저자

Chong Zhang, Yukun Ma, Qian Chen, Wen Wang, Shengkui Zhao, Zexu Pan, Hao Wang, Chongjia Ni, Trung Hieu Nguyen, Kun Zhou, Yidi Jiang, Chaohong Tan, Zhifu Gao, Zhihao Du, Bin Ma

개요

InspireMusic은 초고해상도 및 대규모 언어 모델을 통합한 프레임워크로, 고품질의 장편 음악 생성을 위한 시스템입니다. 자동회귀 트랜스포머와 초고해상도 플로우 매칭 모델을 통합하여 고품질 음악, 노래 및 오디오를 생성합니다. 풍부한 의미 정보를 담은 단일 코드북을 사용하는 오디오 토크나이저를 활용하여 학습 비용을 줄이고 효율성을 높였습니다. 텍스트 및 오디오 프롬프트로부터 최대 8분 길이의 고품질 장편 음악을 생성할 수 있습니다. Qwen 2.5 기반의 자동회귀 트랜스포머 모델이 오디오 토큰을 예측하고, 초고해상도 플로우 매칭 모델이 음향 코덱 모델에서 학습된 세부 정보를 사용하여 고샘플링률 오디오를 생성합니다. 객관적 및 주관적 평가에서 MusicGen 및 Stable Audio 2.0과 같은 최신 최고 수준의 오픈소스 시스템과 비슷한 성능을 보입니다.

시사점, 한계점

시사점:
고품질 장편 음악 생성을 위한 효율적인 프레임워크 제시
텍스트 및 오디오 프롬프트 모두 지원
최대 8분 길이의 고품질 오디오 생성 가능
기존 최고 수준의 오픈소스 시스템과 비교 가능한 성능
코드 및 사전 훈련된 모델 공개
한계점:
논문에서 구체적인 한계점이 명시적으로 언급되지 않음. 향후 연구를 통해 추가적인 개선이 필요할 수 있음.
👍