Sign In

Soft Clustering Anchors for Self-Supervised Speech Representation Learning in Joint Embedding Prediction Architectures

Created by
  • Haebom
Category
Empty

μ €μž

Georgios Ioannides, Adrian Kieback, Judah Goldfeder, Linsey Pang, Aman Chadha, Aaron Elkins, Yann LeCun, Ravid Shwartz-Ziv

πŸ’‘ κ°œμš”

λ³Έ 논문은 자기 지도 ν•™μŠ΅ 기반 μŒμ„± ν‘œν˜„ ν•™μŠ΅μ—μ„œ λ°œμƒν•˜λŠ” ν‘œν˜„ λΆ•κ΄΄ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, κ°€μš°μ‹œμ•ˆ ν˜Όν•© λͺ¨λΈ(GMM)을 μ΄μš©ν•˜μ—¬ λΆ€λ“œλŸ¬μš΄ 사후 ν™•λ₯ μ„ 보쑰 λͺ©ν‘œλ‘œ μ‚¬μš©ν•˜λŠ” GMM-Anchored JEPAλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆλœ 방법은 초기 ν•™μŠ΅ λ‹¨κ³„μ—μ„œ GMM μ •κ·œν™”κ°€ JEPA λͺ©ν‘œμ— μ μ§„μ μœΌλ‘œ μ–‘λ³΄ν•˜λ„λ‘ ν•˜λŠ” κ°μ†Œν•˜λŠ” 지도 방식을 μ‚¬μš©ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 HuBERT 및 WavLMκ³Ό 같은 κΈ°μ‘΄ 방법둠 λŒ€λΉ„ ASR, 감정 인식, 슬둯 필링 μ„±λŠ₯을 ν–₯μƒμ‹œν‚€κ³  ν΄λŸ¬μŠ€ν„° ν™œμš©λ„λ₯Ό λ†’μ΄λŠ” μ„±κ³Όλ₯Ό λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
GMM 기반의 λΆ€λ“œλŸ¬μš΄ ν΄λŸ¬μŠ€ν„°λ§ μ•΅μ»€λŠ” 자기 지도 μŒμ„± ν‘œν˜„ ν•™μŠ΅μ—μ„œ λ°œμƒν•˜λŠ” ν‘œν˜„ λΆ•κ΄΄λ₯Ό 효과적으둜 μ™„ν™”ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법은 반볡적인 μž¬ν΄λŸ¬μŠ€ν„°λ§ 없이 ν•œ 번의 λΆ€λ“œλŸ¬μš΄ ν• λ‹ΉμœΌλ‘œ 효율적인 ν•™μŠ΅μ΄ κ°€λŠ₯ν•˜λ©°, μŒμ„± κ΄€λ ¨ λ‹€μš΄μŠ€νŠΈλ¦Ό μž‘μ—…μ—μ„œ μƒλ‹Ήν•œ μ„±λŠ₯ ν–₯상을 κ°€μ Έμ˜΅λ‹ˆλ‹€.
β€’
GMM μ•΅μ»€λŠ” ν•™μŠ΅λœ ν‘œν˜„μ˜ μ—”νŠΈλ‘œν”Όλ₯Ό 크게 μ¦κ°€μ‹œμΌœ 보닀 κ· μΌν•œ ν΄λŸ¬μŠ€ν„° ν™œμš©μ„ μœ λ„ν•˜λ©°, μ΄λŠ” ν‘œν˜„μ˜ λ‹€μ–‘μ„±κ³Ό ν’ˆμ§ˆ ν–₯상에 κΈ°μ—¬ν•©λ‹ˆλ‹€.
β€’
GMM λͺ¨λΈμ˜ 초기 ν•™μŠ΅ 단계 및 κ°μ†Œν•˜λŠ” 지도 μŠ€μΌ€μ€„μ˜ μ΅œμ ν™”κ°€ μ€‘μš”ν•˜λ©°, νŠΉμ • μŒμ„± λ„λ©”μΈμ΄λ‚˜ 언어에 λŒ€ν•œ μΌλ°˜ν™” μ„±λŠ₯은 좔가적인 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘