Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DUO-TOK: Dual-Track Semantic Music Tokenizer for Vocal-Accompaniment Generation

Created by
  • Haebom
Category
Empty

저자

Rui Lin, Zhiyue Wu, Jiahe Le, Kangdi Wang, Weixiong Chen, Junyu Dai, Tao Jiang

개요

Duo-Tok은 가창과 반주 음악을 위한 소스 인식 듀얼 코드북 토크나이저로, 현대 가사-노래 시스템에서 재구성 품질과 언어 모델 (LM) 학습 가능성 사이의 긴장을 해결하는 것을 목표로 합니다. Duo-Tok은 4단계의 SSL 중심 파이프라인을 따릅니다: 대규모 오디오 데이터셋에서 BEST-RQ 스타일 인코더를 사전 학습하고, 가우시안 대체 노이즈 및 멀티태스크 감독을 통해 표현을 안정화 및 팩터화한 후, 인코더를 고정하여 보컬과 반주를 위한 SimVQ 기반 듀얼 코드북을 하드 라우팅으로 학습합니다. 마지막으로, 이산 토큰 위에 잠재 확산 디코더를 훈련합니다. Duo-Tok은 0.75 kbps에서 기존 방식들보다 우수한 음악 태깅 AP, 낮은 어휘 정규화 LM 혼란도를 달성하면서 최첨단 음악 토크나이저에 필적하는 재구성 품질을 유지합니다.

시사점, 한계점

음악 태깅 정확도 향상.
낮은 언어 모델 (LM) 혼란도.
최첨단 음악 토크나이저와 비슷한 재구성 품질 유지.
듀얼 트랙 구조를 인식하는 토크나이저 개발.
자세한 한계점은 논문에서 확인 필요.
👍