Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SongComposer: A Large Language Model for Lyric and Melody Generation in Song Composition

Created by
  • Haebom

저자

Shuangrui Ding, Zihan Liu, Xiaoyi Dong, Pan Zhang, Rui Qian, Junhao Huang, Conghui He, Dahua Lin, Jiaqi Wang

개요

SongComposer는 가사와 멜로디를 동시에 생성하는 통합적인 노래 작곡 모델입니다. 기존의 가사 생성, 가사-멜로디 변환, 멜로디-가사 변환 등의 개별적인 모델들과 달리, 지시사항에 따라 가사와 멜로디를 동시에 생성하는 기능을 갖추고 있습니다. 이는 단어 수준의 가사와 멜로디 정렬을 위한 유연한 튜플 형식, 음악적 지식 기반의 스칼라 초기화를 사용한 확장된 토큰 분류기 어휘, 그리고 모티프 수준에서 구절 수준으로 진행되는 다단계 파이프라인을 통해 구현되었습니다. 실험 결과, SongComposer는 GPT-4를 포함한 기존의 고급 LLMs보다 가사-멜로디 생성, 멜로디-가사 생성, 노래 연속 생성, 텍스트-노래 생성 작업에서 우수한 성능을 보였습니다. 또한, 중국어와 영어로 된 가사와 멜로디 쌍을 포함하는 대규모 훈련 데이터셋 SongCompose를 공개할 예정입니다.

시사점, 한계점

시사점:
가사와 멜로디를 동시에 생성하는 통합적인 노래 작곡 모델을 제시.
기존의 고급 LLMs보다 우수한 성능을 보임.
대규모 훈련 데이터셋 SongCompose 공개.
음악 생성 분야의 LLM 활용 가능성을 확장.
한계점:
현재 중국어와 영어에 대한 지원만 제공.
모델의 창의성 및 음악적 표현력에 대한 추가적인 연구 필요.
다양한 음악 장르에 대한 적용 가능성 및 일반화 성능 평가 필요.
데이터셋의 규모 및 품질에 따른 성능 저하 가능성.
👍