NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms
Created by
Haebom
Category
Empty
저자
Yashan Wang, Shangda Wu, Jianhuai Hu, Xingjian Du, Yueqi Peng, Yongxin Huang, Shuai Fan, Xiaobing Li, Feng Yu, Maosong Sun
개요
NotaGen은 고품질 클래식 악보 생성을 목표로 하는 심볼릭 음악 생성 모델입니다. 대규모 언어 모델(LLM)의 성공에 영감을 받아 사전 훈련, 미세 조정 및 강화 학습 패러다임을 채택했습니다. 160만 개의 음악 작품으로 사전 훈련되고, 약 9,000개의 고품질 클래식 작품을 "시대-작곡가-편성" 프롬프트에 따라 미세 조정되었습니다. 강화 학습을 위해 인간의 주석이나 사전 정의된 보상 없이 생성 품질과 제어 기능을 향상시키는 CLaMP-DPO 방법을 제안합니다. 실험 결과, 다양한 아키텍처와 인코딩 방식을 가진 심볼릭 음악 생성 모델에서 CLaMP-DPO의 효과를 보여줍니다. 또한, 주관적인 A/B 테스트 결과 NotaGen이 기준 모델과 인간 작곡에 비해 우수함을 보여주어 심볼릭 음악 생성에서 음악적 미학을 크게 발전시켰습니다. 프로젝트 홈페이지는 https://electricalexis.github.io/notagen-demo 입니다.