Sign In

HeadQ: Model-Visible Distortion and Score-Space Correction for KV-Cache Quantization

Created by
  • Haebom
Category
Empty

μ €μž

Jorge L. Ruiz Williams

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” KV μΊμ‹œ μ–‘μžν™”μ—μ„œ 기쑴의 μ €μž₯ 곡간 μ΅œμ ν™” λ°©μ‹μ˜ ν•œκ³„λ₯Ό μ§€μ ν•˜λ©°, λͺ¨λΈμ΄ μ‹€μ œλ‘œ μΈμ§€ν•˜λŠ” 였λ₯˜ 츑정을 μ œμ•ˆν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ ν‚€(key)의 경우 λ‘œμ§“(logit)μ—μ„œμ˜ 점수 였λ₯˜λ₯Ό 기반으둜 ν•œ HeadQ 방법을, κ°’(value)의 경우 μ–΄ν…μ…˜ κ°€μ€‘μΉ˜λ₯Ό κ³ λ €ν•œ 토큰 μ™œκ³‘μ„ μΈ‘μ •ν•˜λŠ” 방식을 μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆλœ 방법둠은 λ‹€μ–‘ν•œ λͺ¨λΈμ—μ„œ κΈ°μ‘΄ 방식보닀 훨씬 μ •ν™•ν•˜κ²Œ μ–΄ν…μ…˜ KL(Kullback-Leibler) λ°œμ‚°μ„ μ˜ˆμΈ‘ν•˜λ©°, μ‹€μ œ μ–‘μžν™” μ„±λŠ₯μ—μ„œλ„ 효과λ₯Ό μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
KV μΊμ‹œ μ–‘μžν™” μ‹œ, λ‹¨μˆœνžˆ μ €μž₯ 곡간 μΆ•μ†Œλ₯Ό λ„˜μ–΄ λͺ¨λΈμ΄ μ‹€μ œλ‘œ μΈμ§€ν•˜λŠ” 였λ₯˜λ₯Ό μΈ‘μ •ν•˜λŠ” 것이 μ€‘μš”ν•˜λ‹€.
β€’
ν‚€(key) μ–‘μžν™”μ—μ„œλŠ” λ‘œμ§“ κ³΅κ°„μ—μ„œμ˜ 점수 였λ₯˜λ₯Ό, κ°’(value) μ–‘μžν™”μ—μ„œλŠ” μ–΄ν…μ…˜ κ°€μ€‘μΉ˜λ₯Ό κ³ λ €ν•œ μ™œκ³‘μ„ μΈ‘μ •ν•˜λŠ” 것이 μ„±λŠ₯ ν–₯상에 κΈ°μ—¬ν•œλ‹€.
β€’
μ œμ•ˆλœ HeadQ 방법은 λͺ¨λΈμ˜ 둜우-랭크 μž”μ°¨ λΆ€ν˜Έν™”λ₯Ό ν™œμš©ν•˜μ—¬ 효과적인 λ‘œμ§“ 보정을 κ°€λŠ₯ν•˜κ²Œ ν•œλ‹€.
β€’
아직 νŠΉμ • λͺ¨λΈμ˜ μ €μ—”νŠΈλ‘œν”Ό κ²½λ‘œμ—μ„œ λ°œμƒν•˜λŠ” 이상 ν˜„μƒμ— λŒ€ν•œ 뢄석이 더 ν•„μš”ν•˜λ©°, κ°’(value) μ–‘μžν™” μ •μ±…μ˜ 좔가적인 κ°œμ„  κ°€λŠ₯성이 μ‘΄μž¬ν•œλ‹€.
πŸ‘