haebom
Sign In
SPECTRE: Hybrid Ordinary-Parallel Speculative Serving for Resource-Efficient LLM Inference
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Jincheng Xie, Yawen Ling, Qi Xiao, Feiyu Zhang, Zhongyi Huang, Wen Hu, Yu Zheng
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λ€μ€ λͺ¨λΈ ν΄λΌμ°λ νκ²½μμ λ°μνλ LLM μλΉμ μμ λΉν¨μ¨μ± λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ SPECTREλΌλ μλ‘μ΄ νλ μμν¬λ₯Ό μ μνλ€. SPECTREλ μ ν΄ μνμ μν λͺ¨λΈ(tail model)μ νμ©νμ¬ λΆνκ° λμ λν λͺ¨λΈ(large model)μ μΆλ‘ μ μν μ격 λλνν°(remote drafter)λ‘ μ¬νμ©νλ©°, μ΄λ₯Ό ν΅ν΄ λ³λ ¬μ μΈ μ΄μ μμ± λ° κ²μ¦μ κ°λ₯νκ² νλ€. κ²°κ³Όμ μΌλ‘ SPECTREλ λν λͺ¨λΈ μλΉ μ²λ¦¬λμ ν¬κ² ν₯μμν€λ©΄μλ κΈ°μ‘΄ μν λͺ¨λΈ μν¬λ‘λμ λν κ°μμ μ΅μννλ€.
π μμ¬μ λ° νκ³
β’
μμ ν¨μ¨μ μΈ LLM μλΉ:
SPECTREλ μ ν΄ μμμ νμ©νμ¬ LLM μΆλ‘ μ±λ₯μ λμ΄λ μ€μ§μ μΈ λ°©μμ μ μνλ©°, νΉν λ€μ€ ν λνΈ νκ²½μμμ ν¨μ¨μ±μ κ°μ‘°νλ€.
β’
λ³λ ¬ μΆλ‘ μ΅μ ν:
νμ΄λΈλ¦¬λ μΌλ°-λ³λ ¬ μμΈ‘ λμ½λ©, μμΈ‘ μ°μ μμ μ€μΌμ€λ§, ν둬ννΈ μμΆ λ± λ€μν κΈ°λ²μ ν΅ν΄ μμΈ‘ λμ½λ©μ λ³λ ¬μ±μ κ·Ήλννμ¬ μ€μ μ±λ₯ ν₯μμ μ΄λμ΄λΈλ€.
β’
λν λͺ¨λΈ μλΉ μ±λ₯ ν₯μ:
κΈ°μ‘΄ μ΅μ νλ κΈ°λ² λλΉ μλΉν μλ ν₯μμ λ¬μ±νλ©°, μ€μ LLM μλΉ μλ리μ€μ λν μ ν¨μ±μ μ μ¦νλ€.
β’
νκ³μ :
μν λͺ¨λΈμ λ€μ΄ν°λΈ μν¬λ‘λμ λν κ°μμ΄ "μ¬μνλ€"κ³ μΈκΈλμμΌλ, νΉμ μν©μ΄λ λΆν ν¨ν΄μμλ μ¬μ ν μν₯μ΄ μμ μ μμΌλ©°, μ΄μ λν λ μ¬μΈ΅μ μΈ λΆμκ³Ό μν μ λ΅μ΄ νμν μ μλ€. λν, μ μλ κΈ°λ²λ€μ μΌλ°ν κ°λ₯μ± λ° λ€μν λͺ¨λΈ μν€ν μ² λ° νλμ¨μ΄ νκ²½μμμ μ±λ₯ κ²μ¦μ΄ μΆκ°μ μΌλ‘ μꡬλλ€.
PDF 보기
Made with Slashpage