haebom
Sign In
SkipKV: Selective Skipping of KV Generation and Storage for Efficient Inference with Large Reasoning Models
Created by
Haebom
Category
Empty
μ μ
Jiayi Tian, Seyedarmin Azizi, Yequan Zhao, Erfan Baghaei Potraghloo, Sean McPherson, Sharath Nittur Sridhar, Zhengyang Wang, Zheng Zhang, Massoud Pedram, Souvik Kundu
π‘ κ°μ
λκ·λͺ¨ μΆλ‘ λͺ¨λΈ(LRM)μ μ°μμ μ¬κ³ (CoT) μΆλ‘ κ³Όμ μμ λ°μνλ KV μΊμ μ€λ²ν€λλ λ©λͺ¨λ¦¬ μ μ½κ³Ό μ²λ¦¬λ λ³λͺ© νμμ μ λ°ν©λλ€. κΈ°μ‘΄ KV μΊμ μ κ±° κΈ°λ²μ μ νλλ₯Ό μ μ§νμ§ λͺ»νκ³ μ€νλ € μλ΅ κΈΈμ΄λ₯Ό λ리λ λ¬Έμ κ° μμμ΅λλ€. λ³Έ λ Όλ¬Έμ νλ ¨ μμ΄ λ¬Έμ₯ μμ€μμ μ μ¬ λ¬Έμ₯μ μ κ±°νκ³ , λμ μΌλ‘ μλ νμ±ν μνλ₯Ό μ‘°μ νμ¬ μλ΅μ κ°κ²°νκ² μμ±νλ SkipKVλ₯Ό μ μν©λλ€.
π μμ¬μ λ° νκ³
β’
SkipKVλ νλ ¨ μμ΄ ν¨μ¨μ μΈ CoT μΆλ‘ μ μν΄ KV μΊμμ μ κ±° λ° μμ±μ μ νμ μΌλ‘ μνν©λλ€.
β’
λ¬Έμ₯ μμ€ μ κ±° λ° μλ νμ±ν μ‘°μ μΌλ‘ μ μ¬ μ λ ₯ μ κ±° λ° κ°κ²°ν μλ΅ μμ±μ ν΅ν΄ μ νλμ μ²λ¦¬λμ λμμ ν₯μμν΅λλ€.
β’
λ€μ€ λ°°μΉ μ€μ μμμ μ νλ μ ν λ° μλ―Έλ‘ μ λ§₯λ½ μμ€ κ°λ₯μ±μ ν₯ν μ°κ΅¬ κ³Όμ λ‘ λ¨μ΅λλ€.
PDF 보기
Made with Slashpage