Sign In

SkipKV: Selective Skipping of KV Generation and Storage for Efficient Inference with Large Reasoning Models

Created by
  • Haebom
Category
Empty

μ €μž

Jiayi Tian, Seyedarmin Azizi, Yequan Zhao, Erfan Baghaei Potraghloo, Sean McPherson, Sharath Nittur Sridhar, Zhengyang Wang, Zheng Zhang, Massoud Pedram, Souvik Kundu

πŸ’‘ κ°œμš”

λŒ€κ·œλͺ¨ μΆ”λ‘  λͺ¨λΈ(LRM)의 연쇄적 사고(CoT) μΆ”λ‘  κ³Όμ •μ—μ„œ λ°œμƒν•˜λŠ” KV μΊμ‹œ μ˜€λ²„ν—€λ“œλŠ” λ©”λͺ¨λ¦¬ μ œμ•½κ³Ό μ²˜λ¦¬λŸ‰ 병λͺ© ν˜„μƒμ„ μœ λ°œν•©λ‹ˆλ‹€. κΈ°μ‘΄ KV μΊμ‹œ 제거 기법은 정확도λ₯Ό μœ μ§€ν•˜μ§€ λͺ»ν•˜κ³  였히렀 응닡 길이λ₯Ό λŠ˜λ¦¬λŠ” λ¬Έμ œκ°€ μžˆμ—ˆμŠ΅λ‹ˆλ‹€. λ³Έ 논문은 ν›ˆλ ¨ 없이 λ¬Έμž₯ μˆ˜μ€€μ—μ„œ μœ μ‚¬ λ¬Έμž₯을 μ œκ±°ν•˜κ³ , λ™μ μœΌλ‘œ 은닉 ν™œμ„±ν™” μƒνƒœλ₯Ό μ‘°μ •ν•˜μ—¬ 응닡을 κ°„κ²°ν•˜κ²Œ μƒμ„±ν•˜λŠ” SkipKVλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
SkipKVλŠ” ν›ˆλ ¨ 없이 효율적인 CoT 좔둠을 μœ„ν•΄ KV μΊμ‹œμ˜ 제거 및 생성을 μ„ νƒμ μœΌλ‘œ μˆ˜ν–‰ν•©λ‹ˆλ‹€.
β€’
λ¬Έμž₯ μˆ˜μ€€ 제거 및 은닉 ν™œμ„±ν™” μ‘°μ •μœΌλ‘œ μœ μ‚¬ μž…λ ₯ 제거 및 κ°„κ²°ν•œ 응닡 생성을 톡해 정확도와 μ²˜λ¦¬λŸ‰μ„ λ™μ‹œμ— ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.
β€’
닀쀑 배치 μ„€μ •μ—μ„œμ˜ 정확도 μ €ν•˜ 및 의미둠적 λ§₯락 손싀 κ°€λŠ₯성은 ν–₯ν›„ 연ꡬ 과제둜 λ‚¨μŠ΅λ‹ˆλ‹€.
πŸ‘