SongGen은 텍스트 입력으로부터 보컬과 반주를 생성하는 텍스트-음악 생성을 위한 단일 단계 오토리그레시브 트랜스포머 모델입니다. 기존의 다단계 생성 방식의 문제점(복잡한 학습 및 추론 파이프라인, 단계별 오류 누적에 따른 낮은 생성 품질)을 해결하기 위해 개발되었습니다. SongGen은 가사, 악기, 장르, 분위기, 음색 등 다양한 음악 속성에 대한 세밀한 제어를 가능하게 하며, 선택적으로 3초 분량의 참조 클립을 이용한 음성 복제도 지원합니다. 보컬과 반주를 함께 생성하는 믹스 모드와 별도로 생성하는 듀얼 트랙 모드를 지원하며, 각 모드에 대한 다양한 토큰 패턴 전략을 탐색하여 성능 향상을 이끌어냈습니다. 효과적인 품질 관리를 위한 자동화된 데이터 전처리 파이프라인도 설계되었습니다. 모델 가중치, 학습 코드, 주석이 달린 데이터 및 전처리 파이프라인을 공개하여 커뮤니티 참여와 후속 연구를 장려합니다.