NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms
Created by
Haebom
Category
Empty
저자
Yashan Wang, Shangda Wu, Jianhuai Hu, Xingjian Du, Yueqi Peng, Yongxin Huang, Shuai Fan, Xiaobing Li, Feng Yu, Maosong Sun
개요
NotaGen은 고품질 클래식 악보 생성을 목표로 하는 심볼릭 음악 생성 모델입니다. 대규모 언어 모델(LLM)의 성공에 영감을 받아, NotaGen은 사전 훈련, 미세 조정 및 강화 학습 패러다임(LLM 훈련 패러다임)을 채택합니다. 160만 개의 ABC 표기법 음악으로 사전 훈련되고, 약 9,000개의 고품질 클래식 작곡으로 "시대-작곡가-악기 편성" 프롬프트를 조건으로 미세 조정됩니다. 강화 학습을 위해, 인간의 주석이나 사전 정의된 보상 없이 생성 품질과 제어 가능성을 향상시키는 CLaMP-DPO 방법을 제안합니다. 실험 결과는 다양한 아키텍처와 인코딩 방식을 가진 심볼릭 음악 생성 모델에서 CLaMP-DPO의 효과를 보여줍니다. 주관적인 A/B 테스트는 NotaGen이 기준 모델보다 인간의 작곡에 대해 우수함을 보여주며, 심볼릭 음악 생성에서 음악적 미학을 크게 발전시켰습니다.