Sign In

When Quantization Is Free: An int4 KV Cache That Outruns fp16 on Apple Silicon

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Mohamed Amine Bergach

πŸ’‘ κ°œμš”

λ³Έ 논문은 Apple Silicon의 톡합 λ©”λͺ¨λ¦¬ ν™˜κ²½μ—μ„œ KV-cache μ–‘μžν™”λ₯Ό ν’ˆμ§ˆ-μ§€μ—° μ‹œκ°„ 상좩 κ΄€κ³„λ‘œ λ³΄λŠ” 일반적인 관점을 λ’€μ§‘λŠ”λ‹€. μ €μžλ“€μ€ 단일 μœ΅ν•© Metal 컀널을 μ‚¬μš©ν•˜μ—¬ int4 μ–‘μžν™”λœ KV-cacheκ°€ fp16보닀 더 λΉ λ₯΄κ²Œ μž‘λ™ν•˜λ©°, λ©”λͺ¨λ¦¬ μ‚¬μš©λŸ‰μ€ 3λ°° κ°μ†Œν•˜λ©΄μ„œλ„ ν’ˆμ§ˆ 손싀은 λ―Έλ―Έν•˜λ‹€λŠ” 것을 보여쀀닀. 특히 Gemma-3 1B 및 Qwen2.5-1.5B λͺ¨λΈμ—μ„œ λ‹¨μΆ•λœ 처리 μ‹œκ°„κ³Ό 보쑴된 λͺ¨λΈ μ„±λŠ₯을 μž…μ¦ν•œλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
Apple Silicon의 톡합 λ©”λͺ¨λ¦¬ μ•„ν‚€ν…μ²˜λŠ” KV-cache μ–‘μžν™”μ˜ μ„±λŠ₯ νŠΉμ„±μ„ κΈ°μ‘΄κ³ΌλŠ” λ‹€λ₯Έ λ°©μ‹μœΌλ‘œ λ‚˜νƒ€λ‚΄λ©°, λ•Œλ‘œλŠ” μ–‘μžν™”λ₯Ό 톡해 였히렀 μ„±λŠ₯ ν–₯상을 얻을 수 μžˆλ‹€.
β€’
단일 μœ΅ν•© Metal 컀널 μ„€κ³„λŠ” 높은 λ©”λͺ¨λ¦¬ μ••μΆ•λ₯ κ³Ό λΉ λ₯Έ 처리 속도λ₯Ό λ™μ‹œμ— λ‹¬μ„±ν•˜λ©°, μ–‘μžν™”λ‘œ μΈν•œ ν’ˆμ§ˆ μ €ν•˜λ₯Ό 효과적으둜 μ™„ν™”ν•œλ‹€.
β€’
이 μ—°κ΅¬λŠ” νŠΉμ • ν•˜λ“œμ›¨μ–΄ μ•„ν‚€ν…μ²˜(Apple Silicon)에 μ΅œμ ν™”λœ μ ‘κ·Ό 방식을 μ œμ‹œν•˜λ©°, λ‹€λ₯Έ ν•˜λ“œμ›¨μ–΄ ν”Œλž«νΌμ—μ„œμ˜ 적용 κ°€λŠ₯μ„± 및 κ΄‘λ²”μœ„ν•œ λͺ¨λΈμ— λŒ€ν•œ μ„±λŠ₯ 검증이 μΆ”κ°€μ μœΌλ‘œ ν•„μš”ν•˜λ‹€.
πŸ‘