Sign In

PoDAR: Power-Disentangled Audio Representation for Generative Modeling

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Alejandro Luebs, Mithilesh Vaidya, Ishaan Kumar, Sumukh Badam, Stephen W. Bailey, Matthew Bendel, Jose Sotelo, Xingzhe He

πŸ’‘ κ°œμš”

λ³Έ 논문은 μ˜€λ””μ˜€ 생성 λͺ¨λΈμ˜ μ„±λŠ₯ ν–₯상을 μœ„ν•΄ 잠재 κ³΅κ°„μ˜ λͺ¨λΈλ§ κ°€λŠ₯성을 κ°œμ„ ν•˜λŠ” μƒˆλ‘œμš΄ ν”„λ ˆμž„μ›Œν¬μΈ PoDAR(Power-Disentangled Audio Representation)λ₯Ό μ œμ•ˆν•œλ‹€. PoDARλŠ” 랜덀 νŒŒμ›Œ 증강과 잠재 일관성 λͺ©ν‘œλ₯Ό ν™œμš©ν•˜μ—¬ μ‹ ν˜Έ νŒŒμ›Œλ₯Ό λΆˆλ³€ν•˜λŠ” 의미 λ‚΄μš©κ³Ό λΆ„λ¦¬ν•¨μœΌλ‘œμ¨, 잠재 곡간 λͺ¨λΈλ§μ„ μš©μ΄ν•˜κ²Œ ν•œλ‹€. 이λ₯Ό 톡해 downstream 생성 λͺ¨λΈμ˜ 수렴 속도λ₯Ό 높이고 μ΅œμ’… μ„±λŠ₯을 ν–₯μƒμ‹œν‚¨λ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ˜€λ””μ˜€ 생성 λͺ¨λΈμ˜ 잠재 κ³΅κ°„μ—μ„œ μ‹ ν˜Έ νŒŒμ›Œμ™€ 의미 μ½˜ν…μΈ λ₯Ό λΆ„λ¦¬ν•˜λŠ” 것이 λͺ¨λΈμ˜ ν•™μŠ΅ νš¨μœ¨μ„±κ³Ό μ΅œμ’… μ„±λŠ₯에 긍정적인 영ν–₯을 λ―ΈμΉœλ‹€.
β€’
PoDAR ν”„λ ˆμž„μ›Œν¬λŠ” 잠재 곡간 λͺ¨λΈλ§μ˜ 어렀움을 ν•΄κ²°ν•˜μ—¬ 생성 λͺ¨λΈμ˜ 수렴 속도λ₯Ό κ°€μ†ν™”ν•˜κ³ , μŠ€ν”Όμ»€ μœ μ‚¬λ„ 및 μŒμ„± ν’ˆμ§ˆκ³Ό 같은 μ„±λŠ₯ μ§€ν‘œλ₯Ό ν–₯μƒμ‹œν‚¨λ‹€.
β€’
νŒŒμ›Œλ₯Ό λ³„λ„μ˜ μ±„λ„λ‘œ λΆ„λ¦¬ν•¨μœΌλ‘œμ¨ 쑰건뢀 생성 λͺ¨λΈ(CFG)을 νŒŒμ›Œ λΆˆλ³€ μ½˜ν…μΈ μ—λ§Œ μ μš©ν•˜μ—¬ 더 높은 μŠ€μΌ€μΌμ—μ„œλ„ μ•ˆμ •μ μΈ μ œμ–΄λ₯Ό κ°€λŠ₯ν•˜κ²Œ ν•œλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” μ˜€λ””μ˜€ 잠재 곡간 λΆ„ν•΄μ˜ μ€‘μš”μ„±μ„ κ°•μ‘°ν•˜λ©°, ν–₯ν›„ μ˜€λ””μ˜€ 생성 λͺ¨λΈ 연ꡬ λ°©ν–₯에 λŒ€ν•œ μ‹œμ‚¬μ μ„ μ œκ³΅ν•œλ‹€.
πŸ‘