NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms
Created by
Haebom
Category
Empty
저자
Yashan Wang, Shangda Wu, Jianhuai Hu, Xingjian Du, Yueqi Peng, Yongxin Huang, Shuai Fan, Xiaobing Li, Feng Yu, Maosong Sun
개요
NotaGen은 고품질의 클래식 악보 생성을 목표로 하는 심볼릭 음악 생성 모델입니다. 대규모 언어 모델(LLM)의 성공에 영감을 받아, NotaGen은 사전 훈련, 미세 조정 및 강화 학습 패러다임(LLM 훈련 패러다임)을 채택합니다. ABC 표기법으로 된 160만 곡의 음악으로 사전 훈련되고, "시대-작곡가-편성" 프롬프트를 조건으로 약 9,000곡의 고품질 클래식 작품으로 미세 조정됩니다. 강화 학습을 위해, 인간의 주석이나 미리 정의된 보상 없이 생성 품질과 제어 가능성을 향상시키는 CLaMP-DPO 방법을 제안합니다. 실험 결과는 다양한 아키텍처와 인코딩 방식을 가진 심볼릭 음악 생성 모델에서 CLaMP-DPO의 효과를 보여줍니다. 또한, 주관적인 A/B 테스트는 NotaGen이 기준 모델보다 인간의 작품에 대해 더 나은 성능을 보이며, 심볼릭 음악 생성에서 음악적 미학을 크게 발전시킨다는 것을 보여줍니다.
시사점, 한계점
•
시사점:
◦
LLM 훈련 패러다임을 심볼릭 음악 생성에 성공적으로 적용하여 고품질 클래식 악보 생성을 가능하게 함.
◦
인간의 주석이나 미리 정의된 보상 없이 생성 품질과 제어 가능성을 향상시키는 CLaMP-DPO 방법 제안.
◦
주관적인 A/B 테스트를 통해 기존 모델 대비 성능 향상 및 인간 작곡과의 경쟁력 입증.
◦
심볼릭 음악 생성 분야의 음악적 미학 발전에 기여.
•
한계점:
◦
ABC 표기법에 국한된 데이터셋 사용으로 다른 표기법 지원에 대한 추가 연구 필요.
◦
CLaMP-DPO 방법의 일반성 및 다른 음악 장르에 대한 적용 가능성에 대한 추가 연구 필요.