Sign In

NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms

Created by
  • Haebom
Category
Empty

저자

Yashan Wang, Shangda Wu, Jianhuai Hu, Xingjian Du, Yueqi Peng, Yongxin Huang, Shuai Fan, Xiaobing Li, Feng Yu, Maosong Sun

개요

NotaGen은 고품질 클래식 악보 생성을 목표로 하는 심볼릭 음악 생성 모델입니다. 대규모 언어 모델(LLM)의 성공에 영감을 받아 사전 훈련, 미세 조정 및 강화 학습 패러다임을 채택했습니다. 160만 개의 음악 작품으로 사전 훈련되고, 약 9,000개의 고품질 클래식 작품을 "시대-작곡가-편성" 프롬프트에 따라 미세 조정되었습니다. 강화 학습을 위해 인간의 주석이나 사전 정의된 보상 없이 생성 품질과 제어 기능을 향상시키는 CLaMP-DPO 방법을 제안합니다. 실험 결과, 다양한 아키텍처와 인코딩 방식을 가진 심볼릭 음악 생성 모델에서 CLaMP-DPO의 효과를 보여줍니다. 또한, 주관적인 A/B 테스트 결과 NotaGen이 기준 모델과 인간 작곡에 비해 우수함을 보여주어 심볼릭 음악 생성에서 음악적 미학을 크게 발전시켰습니다. 프로젝트 홈페이지는 https://electricalexis.github.io/notagen-demo 입니다.

시사점, 한계점

시사점:
LLM 훈련 패러다임을 심볼릭 음악 생성에 성공적으로 적용했습니다.
CLaMP-DPO 방법을 통해 인간의 개입 없이 생성 품질과 제어성을 향상시켰습니다.
기존 모델 및 인간 작곡 대비 주관적 평가에서 우수한 성능을 보였습니다.
고품질 클래식 악보 생성 분야의 발전에 기여했습니다.
한계점:
주관적인 A/B 테스트 결과에 대한 구체적인 수치나 통계적 유의성 정보가 부족합니다.
CLaMP-DPO 방법의 구체적인 알고리즘과 세부적인 내용이 논문에 자세히 설명되지 않았을 수 있습니다.
사용된 데이터셋의 편향성이나 한계에 대한 논의가 부족할 수 있습니다.
모델의 생성 결과에 대한 객관적인 평가 지표가 제시되지 않았을 수 있습니다.
👍