Sign In

DSFlow: Dual Supervision and Step-Aware Architecture for One-Step Flow Matching Speech Synthesis

Created by
  • Haebom
Category
Empty

μ €μž

Bin Lin, Peng Yang, Chao Yan, Xiaochen Liu, Wei Wang, Boyong Wu, Pengfei Tan, Xuerui Yang

πŸ’‘ κ°œμš”

λ³Έ 논문은 μŒμ„± ν•©μ„± μ‹œ λ°œμƒν•˜λŠ” 계산 λΉ„μš© 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ κΈ°μ‘΄ ν”Œλ‘œμš° λ§€μΉ­ λͺ¨λΈμ˜ 반볡적인 μƒ˜ν”Œλ§ 과정을 νš¨μœ¨ν™”ν•˜λŠ” DSFlowλΌλŠ” μƒˆλ‘œμš΄ 증λ₯˜ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. DSFlowλŠ” 이산적인 예츑 μž‘μ—…μœΌλ‘œ 생성을 μž¬μ •μ˜ν•˜κ³ , 이쀑 감독 μ „λž΅κ³Ό μŠ€ν… 인식 μ•„ν‚€ν…μ²˜λ₯Ό 톡해 ν•™μŠ΅ μ•ˆμ •μ„±μ„ 높이고 νŒŒλΌλ―Έν„° νš¨μœ¨μ„±μ„ κ°œμ„ ν•˜μ—¬ 적은 단계 λ˜λŠ” 단일 λ‹¨κ³„λ‘œλ„ κ³ ν’ˆμ§ˆ μŒμ„± 합성을 λ‹¬μ„±ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
ν”Œλ‘œμš° λ§€μΉ­ 기반 μŒμ„± ν•©μ„±μ˜ μΆ”λ‘  속도 및 계산 νš¨μœ¨μ„±μ„ 크게 ν–₯μƒμ‹œν‚€λŠ” 효과적인 증λ₯˜ 방법둠을 μ œμ‹œν–ˆμŠ΅λ‹ˆλ‹€.
β€’
이쀑 감독 μ „λž΅κ³Ό μŠ€ν… 인식 λ©”μ»€λ‹ˆμ¦˜μ„ 톡해 ν•™μŠ΅ μ•ˆμ •μ„±κ³Ό λͺ¨λΈμ˜ νŒŒλΌλ―Έν„° νš¨μœ¨μ„±μ„ λ™μ‹œμ— κ°œμ„ ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ DSFlowλŠ” λ‹€μ–‘ν•œ ν”Œλ‘œμš° 기반 TTS μ•„ν‚€ν…μ²˜μ— 적용 κ°€λŠ₯ν•˜λ©°, κΈ°μ‘΄ 증λ₯˜ 방식 λŒ€λΉ„ μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
이산적인 κ³ μ • 단계λ₯Ό λŒ€μƒμœΌλ‘œ λͺ¨λΈμ„ μ„€κ³„ν•¨μœΌλ‘œμ¨, 연속적인 μ‹œκ°„ λͺ¨λΈμ„ 직접 μ μš©ν•  λ•Œ λ°œμƒν•˜λŠ” ꡬ쑰적 λΉ„νš¨μœ¨μ„±μ„ κ·Ήλ³΅ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법둠이 νŠΉμ • μŒμ„± ν•©μ„± 데이터셋 및 λͺ¨λΈ μ•„ν‚€ν…μ²˜μ— κ΅­ν•œλ  수 있으며, λ‹€μ–‘ν•œ μ–Έμ–΄ 및 μŒμ„± νŠΉμ„±μ— λŒ€ν•œ 좔가적인 검증이 ν•„μš”ν•©λ‹ˆλ‹€.
β€’
극단적인 단일 단계 ν•©μ„± μ‹œ λ°œμƒν•  수 μžˆλŠ” 음질 μ €ν•˜μ— λŒ€ν•œ 민감도 및 좔가적인 κ°œμ„  λ°©μ•ˆ 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘