haebom
Sign In
MineDraft: A Framework for Batch Parallel Speculative Decoding
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Zhenwei Tang, Arun Verma, Zijian Zhou, Zhaoxuan Wu, Alok Prakash, Daniela Rus, Bryan Kian Hsiang Low
π‘ κ°μ
λ³Έ λ Όλ¬Έμ κΈ°μ‘΄ μμ°¨μ μΈ λ°©μμ μΆλ‘ μλ μ ν λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄, μμ λͺ¨λΈλ‘ 미리 ν ν°μ μμ±νλ "μ΄μ μμ±(drafting)" λ¨κ³μ ν° λͺ¨λΈλ‘ κ²μ¦νλ "κ²μ¦(verification)" λ¨κ³λ₯Ό λ³λ ¬λ‘ μ²λ¦¬νλ MineDraft νλ μμν¬λ₯Ό μ μν©λλ€. MineDraftμ λ κ°μ μμ² λ°°μΉ(batch)λ₯Ό μ΄μνλ©°, ν λ°°μΉμμλ μ΄μ μμ±μ, λ€λ₯Έ λ°°μΉμμλ κ²μ¦μ λμμ μννμ¬ μ΄μ μμ± μ§μ° μκ°μ ν¨κ³Όμ μΌλ‘ μ¨κΉλλ€. μ΄λ₯Ό ν΅ν΄ κΈ°μ‘΄ μ΄μ μμ± λ°©μ λλΉ μ²λ¦¬λ μ΅λ 75%, μ΅μ’ μ§μ° μκ° μ΅λ 39% κ°μ μ΄λΌλ μλΉν μ±λ₯ ν₯μμ λ¬μ±νμ΅λλ€.
π μμ¬μ λ° νκ³
β’
μ²λ¦¬λ λ° μ§μ° μκ° νκΈ°μ κ°μ :
μ μνλ λ°°μΉ λ³λ ¬ μ΄μ μμ± κΈ°λ²μ κΈ°μ‘΄ λλΉ μΆλ‘ μ±λ₯μ λν ν₯μμμΌ LLM μλΉμ€μ ν¨μ¨μ±μ λμ λλ€.
β’
μ€μ§μ μΈ κ΅¬ν κ°λ₯μ± μ μ¦:
vLLM νλ¬κ·ΈμΈ ννλ‘ κ΅¬νλμ΄ μ€μ μλΉμ€ νκ²½μ μ μ© κ°λ₯ν μ€μ©μ±μ 보μ¬μ€λλ€.
β’
λͺ¨λΈ λ° μμ λ³ μ΅μ ν νμ:
νμ¬ μ μλ κΈ°λ²μ΄ νΉμ λͺ¨λΈ μν€ν μ²λ μμ μ νμ μ΅μ νλμ΄ μμ μ μμΌλ©°, λ€μν λͺ¨λΈ λ° μμ μ λν μΆκ°μ μΈ μ±λ₯ κ²μ¦ λ° μ΅μ νκ° νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage