haebom
Sign In
Soft Clustering Anchors for Self-Supervised Speech Representation Learning in Joint Embedding Prediction Architectures
Created by
Haebom
Category
Empty
μ μ
Georgios Ioannides, Adrian Kieback, Judah Goldfeder, Linsey Pang, Aman Chadha, Aaron Elkins, Yann LeCun, Ravid Shwartz-Ziv
π‘ κ°μ
λ³Έ λ Όλ¬Έμ μκΈ° μ§λ νμ΅ κΈ°λ° μμ± νν νμ΅μμ λ°μνλ νν λΆκ΄΄ λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄, κ°μ°μμ νΌν© λͺ¨λΈ(GMM)μ μ΄μ©νμ¬ λΆλλ¬μ΄ μ¬ν νλ₯ μ 보쑰 λͺ©νλ‘ μ¬μ©νλ GMM-Anchored JEPAλ₯Ό μ μν©λλ€. μ μλ λ°©λ²μ μ΄κΈ° νμ΅ λ¨κ³μμ GMM μ κ·νκ° JEPA λͺ©νμ μ μ§μ μΌλ‘ μ보νλλ‘ νλ κ°μνλ μ§λ λ°©μμ μ¬μ©ν©λλ€. μ΄λ₯Ό ν΅ν΄ HuBERT λ° WavLMκ³Ό κ°μ κΈ°μ‘΄ λ°©λ²λ‘ λλΉ ASR, κ°μ μΈμ, μ¬λ‘― νλ§ μ±λ₯μ ν₯μμν€κ³ ν΄λ¬μ€ν° νμ©λλ₯Ό λμ΄λ μ±κ³Όλ₯Ό 보μμ΅λλ€.
π μμ¬μ λ° νκ³
β’
GMM κΈ°λ°μ λΆλλ¬μ΄ ν΄λ¬μ€ν°λ§ μ΅μ»€λ μκΈ° μ§λ μμ± νν νμ΅μμ λ°μνλ νν λΆκ΄΄λ₯Ό ν¨κ³Όμ μΌλ‘ μνν©λλ€.
β’
μ μλ λ°©λ²μ λ°λ³΅μ μΈ μ¬ν΄λ¬μ€ν°λ§ μμ΄ ν λ²μ λΆλλ¬μ΄ ν λΉμΌλ‘ ν¨μ¨μ μΈ νμ΅μ΄ κ°λ₯νλ©°, μμ± κ΄λ ¨ λ€μ΄μ€νΈλ¦Ό μμ μμ μλΉν μ±λ₯ ν₯μμ κ°μ Έμ΅λλ€.
β’
GMM μ΅μ»€λ νμ΅λ ννμ μνΈλ‘νΌλ₯Ό ν¬κ² μ¦κ°μμΌ λ³΄λ€ κ· μΌν ν΄λ¬μ€ν° νμ©μ μ λνλ©°, μ΄λ ννμ λ€μμ±κ³Ό νμ§ ν₯μμ κΈ°μ¬ν©λλ€.
β’
GMM λͺ¨λΈμ μ΄κΈ° νμ΅ λ¨κ³ λ° κ°μνλ μ§λ μ€μΌμ€μ μ΅μ νκ° μ€μνλ©°, νΉμ μμ± λλ©μΈμ΄λ μΈμ΄μ λν μΌλ°ν μ±λ₯μ μΆκ°μ μΈ μ°κ΅¬κ° νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage