Sign In

D-PACE: Dynamic Position-Aware Cross-Entropy for Parallel Speculative Drafting

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Tianyu Wu, Yu Yao, Zhenting Qi, Han Zheng, Zhuohan Wang, Haoran Ma, Lawrence Liao, Himabindu Lakkaraju, Ju Li, Yilun Du

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM) μΆ”λ‘  속도λ₯Ό λ†’μ΄λŠ” 병렬 μΆ”μΈ‘ λ””μ½”λ”©(speculative decoding)μ—μ„œ λ°œμƒν•˜λŠ” λ¬Έμ œμ μ„ ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μƒˆλ‘œμš΄ ν•™μŠ΅ λͺ©ν‘œ ν•¨μˆ˜μΈ D-PACEλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. D-PACEλŠ” 기쑴의 κ³ μ •λœ κ°€μ€‘μΉ˜ 방식 λŒ€μ‹ , 각 μœ„μΉ˜μ˜ 수용 ν™•λ₯  κΈ°μšΈκΈ°μ— 따라 λ™μ μœΌλ‘œ κ°€μ€‘μΉ˜λ₯Ό μ‘°μ ˆν•˜μ—¬ μ„±λŠ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€. 이λ₯Ό 톡해 ν›ˆλ ¨ μ‹œκ°„ μ˜€λ²„ν—€λ“œ 없이 μΆ”λ‘  속도와 평균 생성 토큰 길이λ₯Ό λͺ¨λ‘ κ°œμ„ ν•˜λŠ” μ„±κ³Όλ₯Ό κ±°λ‘μ—ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
D-PACEλŠ” ν›ˆλ ¨ κ³Όμ •μ—μ„œ μΆ”μΈ‘ λ””μ½”λ”©μ˜ μ„±λŠ₯ 병λͺ© ν˜„μƒμ„ λ™μ μœΌλ‘œ νŒŒμ•…ν•˜κ³  이에 μ§‘μ€‘ν•¨μœΌλ‘œμ¨ ν•™μŠ΅ νš¨μœ¨μ„ 높일 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
κ³ μ •λœ κ°€μ€‘μΉ˜ 방식에 λΉ„ν•΄ 더 μœ μ—°ν•˜κ³  적응적인 ν•™μŠ΅μ„ κ°€λŠ₯ν•˜κ²Œ ν•˜μ—¬, λ‹€μ–‘ν•œ λͺ¨λΈ 및 μ„€μ •μ—μ„œ μΌκ΄€λœ μ„±λŠ₯ ν–₯상을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” D-PACEλ₯Ό μ μš©ν–ˆμ„ λ•Œμ˜ ν›ˆλ ¨ μ‹œκ°„ μ˜€λ²„ν—€λ“œκ°€ 미미함을 μž…μ¦ν•˜μ˜€μœΌλ‚˜, λ‹€μ–‘ν•œ LLM μ•„ν‚€ν…μ²˜ 및 λ³΅μž‘ν•œ λ””μ½”λ”© μ „λž΅μ—μ„œμ˜ μΌλ°˜ν™” μ„±λŠ₯에 λŒ€ν•œ 좔가적인 검증이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘