Duo-Tok은 가창과 반주 음악을 위한 소스 인식 듀얼 코드북 토크나이저로, 현대 가사-노래 시스템에서 재구성 품질과 언어 모델 (LM) 학습 가능성 사이의 긴장을 해결하는 것을 목표로 합니다. Duo-Tok은 4단계의 SSL 중심 파이프라인을 따릅니다: 대규모 오디오 데이터셋에서 BEST-RQ 스타일 인코더를 사전 학습하고, 가우시안 대체 노이즈 및 멀티태스크 감독을 통해 표현을 안정화 및 팩터화한 후, 인코더를 고정하여 보컬과 반주를 위한 SimVQ 기반 듀얼 코드북을 하드 라우팅으로 학습합니다. 마지막으로, 이산 토큰 위에 잠재 확산 디코더를 훈련합니다. Duo-Tok은 0.75 kbps에서 기존 방식들보다 우수한 음악 태깅 AP, 낮은 어휘 정규화 LM 혼란도를 달성하면서 최첨단 음악 토크나이저에 필적하는 재구성 품질을 유지합니다.