Sign In

KV-RM: Regularizing KV-Cache Movement for Static-Graph LLM Serving

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Zhiqing Zhong, Zhijing Ye, Jian Zhang, Weijian Zheng, Bolun Sun, Xiaodong Yu

πŸ’‘ κ°œμš”

λ³Έ 논문은 κ³ μ •λœ κ·Έλž˜ν”„ ꡬ쑰λ₯Ό κ°€μ§„ LLM μ„œλΉ™ μ‹œ λ°œμƒν•˜λŠ” λΉ„μ •κ·œμ μΈ KV-μΊμ‹œ λ™μž‘ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ KV-RMμ΄λΌλŠ” μƒˆλ‘œμš΄ λŸ°νƒ€μž„ 섀계λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. KV-RM은 논리적 KV νžˆμŠ€ν† λ¦¬λ₯Ό 물리적 μ €μž₯μ†Œμ™€ λΆ„λ¦¬ν•˜κ³ , 블둝 νŽ˜μ΄μ €λ₯Ό 톡해 ν™œμ„± KV μƒνƒœλ₯Ό κ΄€λ¦¬ν•˜λ©°, 각 λ””μ½”λ“œ 단계λ₯Ό 단일 μ„œμˆ μžλ‘œ κ΅¬ν˜„ν•˜μ—¬ KV-μΊμ‹œ 이동을 κ·œκ²©ν™”ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 ν˜Όν•© 길이 λ””μ½”λ”© μ²˜λ¦¬λŸ‰κ³Ό 꼬리 μ§€μ—° μ‹œκ°„μ„ κ°œμ„ ν•˜κ³ , KV λ©”λͺ¨λ¦¬ μ‚¬μš©λŸ‰μ„ 쀄이며, 생산 μ›Œν¬λ‘œλ“œ μž¬ν˜„ μ‹œ λ°œμƒν•˜λŠ” μ‹¬κ°ν•œ μ§€μ—° μ‹œκ°„ 급증을 μ œκ±°ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
κ³ μ •λœ κ·Έλž˜ν”„ LLM μ„œλΉ™μ—μ„œ λŸ°νƒ€μž„ μœ μ—°μ„±μ„ νšŒλ³΅ν•˜κΈ° μœ„ν•œ 효과적인 κ²½κ³„λ‘œμ„œ KV-μΊμ‹œ 이동 κ΄€λ¦¬μ˜ μ€‘μš”μ„±μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
KV-RM은 λ³΅μž‘ν•œ 컀널 λ³€κ²½ 없이도 LLM μ„œλΉ™ μ„±λŠ₯을 크게 ν–₯μƒμ‹œν‚¬ 수 μžˆλŠ” μ‹€μš©μ μΈ μ†”λ£¨μ…˜μ„ μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법둠은 λ‹€μ–‘ν•œ μ›Œν¬λ‘œλ“œμ—μ„œ νš¨κ³Όμ μ΄μ—ˆμ§€λ§Œ, νŠΉμ • ν•˜λ“œμ›¨μ–΄ κ΅¬μ„±μ΄λ‚˜ 맀우 νŠΉμ΄ν•œ μš”μ²­ νŒ¨ν„΄μ— λŒ€ν•œ 좔가적인 μ„±λŠ₯ 평가가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘