Sign In

NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms

Created by
  • Haebom
Category
Empty

저자

Yashan Wang, Shangda Wu, Jianhuai Hu, Xingjian Du, Yueqi Peng, Yongxin Huang, Shuai Fan, Xiaobing Li, Feng Yu, Maosong Sun

개요

NotaGen은 고품질 클래식 악보 생성을 목표로 하는 기호 음악 생성 모델입니다. 대규모 언어 모델(LLM)의 성공에 영감을 받아 사전 훈련, 미세 조정 및 강화 학습 패러다임(LLM 훈련 패러다임)을 채택했습니다. 160만 곡의 음악으로 사전 훈련되고, "시대-작곡가-편성" 프롬프트를 조건으로 약 9,000곡의 고품질 클래식 작품으로 미세 조정됩니다. 강화 학습을 위해, 인간의 주석이나 사전 정의된 보상 없이 생성 품질과 제어 기능을 향상시키는 CLaMP-DPO 방법을 제안합니다. 실험 결과, CLaMP-DPO는 다양한 아키텍처와 인코딩 방식을 가진 기호 음악 생성 모델에서 효과적임을 보여줍니다. 또한, 주관적인 A/B 테스트 결과, NotaGen이 기준 모델과 인간 작곡에 비해 우수하며, 기호 음악 생성에서 음악적 미학을 크게 발전시킨다는 것을 보여줍니다.

시사점, 한계점

시사점:
LLM 훈련 패러다임을 기호 음악 생성에 성공적으로 적용하여 고품질 클래식 악보 생성 가능성을 제시.
CLaMP-DPO 방법을 통해 인간의 주석 없이 생성 품질과 제어 기능 향상.
주관적 A/B 테스트에서 기존 모델 및 인간 작곡 대비 우수한 성능으로 음악적 미학 발전에 기여.
한계점:
CLaMP-DPO 방법의 일반화 가능성에 대한 추가 연구 필요.
사전 훈련 데이터의 편향성이 결과에 미치는 영향에 대한 분석 필요.
주관적 평가에 대한 객관적인 지표 개발 필요.
👍