Sign In

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Mike Lasby, Ivan Lazarevich, Nish Sinnadurai, Sean Lie, Yani Ioannou, Vithursan Thangarasa

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” Mixture-of-Experts (MoE) λͺ¨λΈμ˜ 압좕을 μœ„ν•œ μ „λ¬Έκ°€ μ••μΆ• μ „λž΅μœΌλ‘œ κ°€μ§€μΉ˜κΈ°(pruning)κ°€ 병합(merging)보닀 μš°μˆ˜ν•¨μ„ λ³΄μ—¬μ€λ‹ˆλ‹€. 특히 생성 μž‘μ—…μ—μ„œ λ°œμƒν•˜λŠ” λ―Έμ„Έν•œ λΌμš°νŒ… μ œμ–΄ μƒμ‹€λ‘œ μΈν•œ λΆˆκ°€ν”Όν•œ 였λ₯˜λ₯Ό μ§€μ ν•˜λ©°, 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ λΌμš°ν„° 게이트 κ°’κ³Ό μ „λ¬Έκ°€ ν™œμ„±ν™” κ·œλ²”μ„ λͺ¨λ‘ κ³ λ €ν•˜λŠ” μƒˆλ‘œμš΄ κ°€μ§€μΉ˜κΈ° 기쀀인 REAP (Router-weighted Expert Activation Pruning)λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. REAPλŠ” λ‹€μ–‘ν•œ 크기의 MoE λͺ¨λΈμ—μ„œ 병합 및 λ‹€λ₯Έ κ°€μ§€μΉ˜κΈ° 방법둠보닀 μΌκ΄€λ˜κ²Œ μš°μˆ˜ν•œ μ„±λŠ₯을 보이며, 특히 μ½”λ“œ 생성과 같은 μž‘μ—…μ—μ„œ 50% μ••μΆ•λ₯ μ—μ„œλ„ 거의 손싀 μ—†λŠ” μ„±λŠ₯을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
생성 μž‘μ—…μ—μ„œ MoE λͺ¨λΈ μ••μΆ• μ‹œ, μ „λ¬Έκ°€ 병합보닀 μ „λ¬Έκ°€ κ°€μ§€μΉ˜κΈ°κ°€ 더 효과적인 μ „λž΅μž„μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λΌμš°ν„°μ˜ λ―Έμ„Έν•œ μ œμ–΄ λŠ₯λ ₯을 μœ μ§€ν•˜λ©΄μ„œ μ „λ¬Έκ°€λ₯Ό μ••μΆ•ν•˜λŠ” 것이 생성 λͺ¨λΈ μ„±λŠ₯ μœ μ§€μ— μ€‘μš”ν•¨μ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ REAP 기법은 λ‹€μ–‘ν•œ MoE λͺ¨λΈμ—μ„œ 50% μ••μΆ•λ₯ μ—μ„œλ„ λ›°μ–΄λ‚œ μ„±λŠ₯을 보이며, 특히 μ½”λ“œ 생성과 같은 νŠΉμ • 생성 μž‘μ—…μ—μ„œ 거의 손싀 μ—†λŠ” 압좕을 κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” 주둜 생성 μž‘μ—…μ— μ΄ˆμ μ„ λ§žμΆ”μ—ˆμœΌλ―€λ‘œ, νŒλ³„(discriminative) μž‘μ—…μ—μ„œμ˜ REAP의 μ„±λŠ₯ 및 νš¨κ³Όμ— λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘