Sign In

Acoustic and perceptual differences between standard and accented speech and their voice clones

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Tianle Yang, Chengzhe Sun, Phil Rose, Siwei Lyu

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” μŒμ„± 볡제(voice cloning) κΈ°μˆ μ—μ„œ ν‘œμ€€μ–΄μ™€ μ•…μ„ΌνŠΈκ°€ μžˆλŠ” λ°©μ–Έ κ°„μ˜ 음ν–₯적, 지각적 차이λ₯Ό λΆ„μ„ν•©λ‹ˆλ‹€. μ•…μ„ΌνŠΈκ°€ μžˆλŠ” μŒμ„± λ³΅μ œκ°€ 원본 μŒμ„±κ³Ό 더 큰 차이λ₯Ό λ³΄μ΄λŠ” κ²½ν–₯이 μžˆμœΌλ‚˜, μ΄λŠ” κ°œλ³„ ν™”μž 변동성을 λ³΄μ •ν•˜λ©΄ μ‚¬λΌμ§€λŠ” κ²ƒμœΌλ‘œ λ‚˜νƒ€λ‚¬μŠ΅λ‹ˆλ‹€. 지각 μ—°κ΅¬μ—μ„œλŠ” ν‘œμ€€μ–΄ λ³΅μ œκ°€ μ•…μ„ΌνŠΈ λ³΅μ œλ³΄λ‹€ μ›λ³Έκ³Όμ˜ μœ μ‚¬μ„±μ΄ λ†’κ²Œ ν‰κ°€λ˜μ—ˆμœΌλ©°, μ•…μ„ΌνŠΈ μŒμ„±μ˜ λͺ…λ£Œλ„κ°€ 볡제λ₯Ό 톡해 더 크게 ν–₯μƒλ˜λŠ” κ²°κ³Όλ₯Ό λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μŒμ„± 볡제 μ‹œ μ•…μ„ΌνŠΈ 보쑴이 ν™”μž 동일성 인식에 μ€‘μš”ν•œ 영ν–₯을 λ―ΈμΉœλ‹€λŠ” 점을 μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
기쑴의 ν™”μž 뢄리 μž„λ² λ”© 기반 λͺ¨λΈμ΄ μ•…μ„ΌνŠΈμ˜ λ―Έλ¬˜ν•œ 차이λ₯Ό μ™„μ „νžˆ ν¬μ°©ν•˜μ§€ λͺ»ν•  수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
μ•…μ„ΌνŠΈ 보쑴을 μŒμ„± 볡제의 λͺ…μ‹œμ μΈ λͺ©ν‘œλ‘œ μ‚Όκ³ , 이λ₯Ό μœ„ν•œ λ³„λ„μ˜ 평가 및 기술 개발이 ν•„μš”ν•¨μ„ μ œμ•ˆν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” 쀑ꡭ어 방언에 κ΅­ν•œλ˜μ—ˆμœΌλ©°, λ‹€μ–‘ν•œ μ–Έμ–΄ 및 μ•…μ„ΌνŠΈ ν™˜κ²½μ—μ„œμ˜ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘