Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation

Created by
  • Haebom

저자

Zihan Liu, Shuangrui Ding, Zhixiong Zhang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang

개요

SongGen은 텍스트 입력으로부터 보컬과 반주를 생성하는 텍스트-음악 생성을 위한 단일 단계 오토리그레시브 트랜스포머 모델입니다. 기존의 다단계 생성 방식의 문제점(복잡한 학습 및 추론 파이프라인, 단계별 오류 누적에 따른 낮은 생성 품질)을 해결하기 위해 개발되었습니다. SongGen은 가사, 악기, 장르, 분위기, 음색 등 다양한 음악 속성에 대한 세밀한 제어를 가능하게 하며, 선택적으로 3초 분량의 참조 클립을 이용한 음성 복제도 지원합니다. 보컬과 반주를 함께 생성하는 믹스 모드와 별도로 생성하는 듀얼 트랙 모드를 지원하며, 각 모드에 대한 다양한 토큰 패턴 전략을 탐색하여 성능 향상을 이끌어냈습니다. 효과적인 품질 관리를 위한 자동화된 데이터 전처리 파이프라인도 설계되었습니다. 모델 가중치, 학습 코드, 주석이 달린 데이터 및 전처리 파이프라인을 공개하여 커뮤니티 참여와 후속 연구를 장려합니다.

시사점, 한계점

시사점:
다단계 생성의 한계를 극복하는 단일 단계 오토리그레시브 모델 제시
가사 및 다양한 음악 속성에 대한 세밀한 제어 가능
음성 복제 기능 제공
믹스 모드와 듀얼 트랙 모드를 통한 유연성 확보
효과적인 데이터 전처리 파이프라인 구축
모델, 코드, 데이터 공개를 통한 연구 공유 및 커뮤니티 참여 장려
한계점:
본 논문에서는 구체적인 한계점이 언급되지 않음. 추후 연구를 통해 성능 개선 및 한계 극복이 필요할 것으로 예상됨.
👍