Sign In

Modeling Music as a Time-Frequency Image: A 2D Tokenizer for Music Generation

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yuqing Cheng, Xingyu Ma, Guochen Yu, Xiaotao Gu

πŸ’‘ κ°œμš”

λ³Έ 논문은 μŒμ•… 생성을 μœ„ν•œ μƒˆλ‘œμš΄ μ˜€λ””μ˜€ ν† ν¬λ‚˜μ΄μ €μΈ BandTok을 μ œμ•ˆν•©λ‹ˆλ‹€. BandTok은 Mel-μŠ€νŽ™νŠΈλ‘œκ·Έλž¨μ„ 2차원 이미지 ν˜•νƒœλ‘œ ν‘œν˜„ν•˜μ—¬ μ‹œκ°„-주파수 ꡬ쑰λ₯Ό λ³΄μ‘΄ν•˜κ³ , 토큰 κ°„μ˜ μ˜μ‘΄μ„±μ„ 쀄여 μžλ™ νšŒκ·€ λͺ¨λΈλ§μ— μ ν•©ν•˜λ„λ‘ μ„€κ³„λ˜μ—ˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό 톡해 기쑴의 μž”μ°¨ 닀쀑 μ½”λ“œλΆ 방식보닀 λ›°μ–΄λ‚œ μž¬κ΅¬μ„± ν’ˆμ§ˆκ³Ό 더 λ‚˜μ€ 생성 μ„±λŠ₯을 λ‹¬μ„±ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
BandTok은 Mel-μŠ€νŽ™νŠΈλ‘œκ·Έλž¨μ„ 2차원 토큰 κ·Έλ¦¬λ“œλ‘œ ν‘œν˜„ν•¨μœΌλ‘œμ¨ μŒμ•…μ˜ μ‹œκ°„-주파수 ꡬ쑰λ₯Ό μ§κ΄€μ μœΌλ‘œ λͺ¨λΈλ§ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
2D RoPEλ₯Ό ν™œμš©ν•œ μ–Έμ–΄ λͺ¨λΈμ€ 생성 κ³Όμ •μ—μ„œ μ‹œκ°„ 및 주파수 λŒ€μ—­ ꡬ쑰λ₯Ό 효과적으둜 μœ μ§€ν•˜μ—¬ 더 κ³ ν’ˆμ§ˆμ˜ μŒμ•… 생성을 κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.
β€’
데이터가 μ œν•œμ μΈ ν™˜κ²½μ—μ„œλ„ κΈ°μ‘΄ ν† ν¬λ‚˜μ΄μ € λŒ€λΉ„ μš°μˆ˜ν•œ μ„±λŠ₯을 보여, μ†Œκ·œλͺ¨ λ°μ΄ν„°μ…‹μ—μ„œμ˜ μŒμ•… 생성 연ꡬ에 κΈ°μ—¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
BandTok의 μž¬κ΅¬μ„± ν’ˆμ§ˆ κ°œμ„ μ„ μœ„ν•œ PatchGAN λͺ©ν‘œμ™€ EMA μ½”λ“œλΆ μ—…λ°μ΄νŠΈ 방식이 μ œμ•ˆλ˜μ—ˆμœΌλ‚˜, μ‹€μ œ λ‹€μ–‘ν•œ μŒμ•… μž₯λ₯΄ 및 λ³΅μž‘ν•œ 음ν–₯ νš¨κ³Όμ— λŒ€ν•œ μΌλ°˜ν™” μ„±λŠ₯ 검증은 ν–₯ν›„ 연ꡬ 과제둜 λ‚¨μŠ΅λ‹ˆλ‹€.
πŸ‘