Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms

Created by
  • Haebom
Category
Empty

저자

Yashan Wang, Shangda Wu, Jianhuai Hu, Xingjian Du, Yueqi Peng, Yongxin Huang, Shuai Fan, Xiaobing Li, Feng Yu, Maosong Sun

개요

NotaGen은 고품질 클래식 악보 생성을 목표로 하는 심볼릭 음악 생성 모델입니다. 대규모 언어 모델(LLM)의 성공에 영감을 받아, NotaGen은 사전 훈련, 미세 조정 및 강화 학습 패러다임(LLM 훈련 패러다임)을 채택합니다. 160만 개의 ABC 표기법 음악으로 사전 훈련되고, 약 9,000개의 고품질 클래식 작곡으로 "시대-작곡가-악기 편성" 프롬프트를 조건으로 미세 조정됩니다. 강화 학습을 위해, 인간의 주석이나 사전 정의된 보상 없이 생성 품질과 제어 가능성을 향상시키는 CLaMP-DPO 방법을 제안합니다. 실험 결과는 다양한 아키텍처와 인코딩 방식을 가진 심볼릭 음악 생성 모델에서 CLaMP-DPO의 효과를 보여줍니다. 주관적인 A/B 테스트는 NotaGen이 기준 모델보다 인간의 작곡에 대해 우수함을 보여주며, 심볼릭 음악 생성에서 음악적 미학을 크게 발전시켰습니다.

시사점, 한계점

시사점:
LLM 훈련 패러다임을 심볼릭 음악 생성에 성공적으로 적용한 사례 제시.
CLaMP-DPO 방법을 통해 인간의 개입 없이 생성 품질과 제어 가능성 향상.
NotaGen이 기존 모델보다 우수한 고품질 클래식 악보 생성 성능을 보임.
심볼릭 음악 생성 분야의 음악적 미학 발전에 기여.
한계점:
ABC 표기법에 의존하는 점. 다른 표기법 지원 필요성.
사용된 데이터셋의 편향성에 대한 검토 필요.
주관적인 A/B 테스트 결과의 일반화 가능성에 대한 추가 연구 필요.
CLaMP-DPO의 다른 모델 및 데이터셋에 대한 일반화 성능 검증 필요.
👍