Sign In

MineDraft: A Framework for Batch Parallel Speculative Decoding

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Zhenwei Tang, Arun Verma, Zijian Zhou, Zhaoxuan Wu, Alok Prakash, Daniela Rus, Bryan Kian Hsiang Low

πŸ’‘ κ°œμš”

λ³Έ 논문은 κΈ°μ‘΄ 순차적인 λ°©μ‹μ˜ μΆ”λ‘  속도 μ €ν•˜ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, μž‘μ€ λͺ¨λΈλ‘œ 미리 토큰을 μƒμ„±ν•˜λŠ” "μ΄ˆμ•ˆ 생성(drafting)" 단계와 큰 λͺ¨λΈλ‘œ κ²€μ¦ν•˜λŠ” "검증(verification)" 단계λ₯Ό λ³‘λ ¬λ‘œ μ²˜λ¦¬ν•˜λŠ” MineDraft ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. MineDraft은 두 개의 μš”μ²­ 배치(batch)λ₯Ό μš΄μ˜ν•˜λ©°, ν•œ λ°°μΉ˜μ—μ„œλŠ” μ΄ˆμ•ˆ 생성을, λ‹€λ₯Έ λ°°μΉ˜μ—μ„œλŠ” 검증을 λ™μ‹œμ— μˆ˜ν–‰ν•˜μ—¬ μ΄ˆμ•ˆ 생성 μ§€μ—° μ‹œκ°„μ„ 효과적으둜 μˆ¨κΉλ‹ˆλ‹€. 이λ₯Ό 톡해 κΈ°μ‘΄ μ΄ˆμ•ˆ 생성 방식 λŒ€λΉ„ μ²˜λ¦¬λŸ‰ μ΅œλŒ€ 75%, μ΅œμ’… μ§€μ—° μ‹œκ°„ μ΅œλŒ€ 39% κ°œμ„ μ΄λΌλŠ” μƒλ‹Ήν•œ μ„±λŠ₯ ν–₯상을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ²˜λ¦¬λŸ‰ 및 μ§€μ—° μ‹œκ°„ 획기적 κ°œμ„ : μ œμ•ˆν•˜λŠ” 배치 병렬 μ΄ˆμ•ˆ 생성 기법은 κΈ°μ‘΄ λŒ€λΉ„ μΆ”λ‘  μ„±λŠ₯을 λŒ€ν­ ν–₯μƒμ‹œμΌœ LLM μ„œλΉ„μŠ€μ˜ νš¨μœ¨μ„±μ„ λ†’μž…λ‹ˆλ‹€.
β€’
μ‹€μ§ˆμ μΈ κ΅¬ν˜„ κ°€λŠ₯μ„± μž…μ¦: vLLM ν”ŒλŸ¬κ·ΈμΈ ν˜•νƒœλ‘œ κ΅¬ν˜„λ˜μ–΄ μ‹€μ œ μ„œλΉ„μŠ€ ν™˜κ²½μ— 적용 κ°€λŠ₯ν•œ μ‹€μš©μ„±μ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
λͺ¨λΈ 및 μž‘μ—…λ³„ μ΅œμ ν™” ν•„μš”: ν˜„μž¬ μ œμ•ˆλœ 기법이 νŠΉμ • λͺ¨λΈ μ•„ν‚€ν…μ²˜λ‚˜ μž‘μ—… μœ ν˜•μ— μ΅œμ ν™”λ˜μ–΄ μžˆμ„ 수 있으며, λ‹€μ–‘ν•œ λͺ¨λΈ 및 μž‘μ—…μ— λŒ€ν•œ 좔가적인 μ„±λŠ₯ 검증 및 μ΅œμ ν™”κ°€ ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘