Sign In

Attention Drift: What Autoregressive Speculative Decoding Models Learn

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Do\u{g}a\c{c} Eldenk, Payal Mohapatra, Yigitcan Comlek, Kaan Oktay, Hongyang Zhang, Stephen Xia

πŸ’‘ κ°œμš”

λ³Έ 논문은 μžκΈ°νšŒκ·€μ  μΆ”μΈ‘ λ””μ½”λ”© λͺ¨λΈμ—μ„œ λ°œμƒν•˜λŠ” "μ–΄ν…μ…˜ λ“œλ¦¬ν”„νŠΈ" ν˜„μƒμ„ 규λͺ…ν•˜κ³  이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•œ μƒˆλ‘œμš΄ μ•„ν‚€ν…μ²˜ 변경을 μ œμ•ˆν•©λ‹ˆλ‹€. μ–΄ν…μ…˜ λ“œλ¦¬ν”„νŠΈλŠ” μΆ”μΈ‘ μ²΄μΈμ—μ„œ μƒμ„±λ˜λŠ” 토큰이 κΈΈμ–΄μ§ˆμˆ˜λ‘ ν”„λ‘¬ν”„νŠΈμ—μ„œ 점차 λ©€μ–΄μ Έ 졜근 μƒμ„±λœ 토큰에 λŒ€ν•œ μ£Όμ˜κ°€ μ§‘μ€‘λ˜λŠ” ν˜„μƒμž…λ‹ˆλ‹€. 연ꡬ진은 μ΄λŸ¬ν•œ λ“œλ¦¬ν”„νŠΈλ₯Ό μ™„ν™”ν•˜κΈ° μœ„ν•΄ 포슀트-μ •κ·œν™” 및 per-hidden-state RMSNorm을 λ„μž…ν–ˆμœΌλ©°, 이λ₯Ό 톡해 λ‹€μ–‘ν•œ λ²€μΉ˜λ§ˆν¬μ—μ„œ μ„±λŠ₯을 크게 ν–₯μƒμ‹œμΌ°μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μΆ”μΈ‘ λ””μ½”λ”© λͺ¨λΈμ˜ μ„±λŠ₯ μ €ν•˜ μ›μΈμœΌλ‘œ 'μ–΄ν…μ…˜ λ“œλ¦¬ν”„νŠΈ'λΌλŠ” μƒˆλ‘œμš΄ ν˜„μƒμ„ μ œμ‹œν•˜λ©°, μ΄λŠ” λ“œλž˜ν”„ν„° 섀계 자체의 근본적인 μ†μ„±μž„μ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
포슀트-μ •κ·œν™” 및 RMSNorm을 ν™œμš©ν•œ μ•„ν‚€ν…μ²˜ 변경이 ν…œν”Œλ¦Ώ λ³€κ²½, κΈ΄ μ»¨ν…μŠ€νŠΈ, 일반 벀치마크 λ“± λ‹€μ–‘ν•œ μƒν™©μ—μ„œ μΆ”μΈ‘ λ””μ½”λ”©μ˜ 수용 길이λ₯Ό 획기적으둜 κ°œμ„ ν•  수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ μ•„ν‚€ν…μ²˜ 변경이 ν•™μŠ΅ μ‹œ 짧은 μΆ”μΈ‘ κΉŠμ΄μ—μ„œλ„ 더 κΈ΄ μΆ”μΈ‘ μ‹œν€€μŠ€μ— λŒ€ν•΄ μΌλ°˜ν™”λ  수 μžˆμŒμ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ—μ„œ μ œμ•ˆλœ μ•„ν‚€ν…μ²˜ λ³€κ²½μ˜ 일반적인 적용 κ°€λŠ₯μ„± 및 λ‹€λ₯Έ μΆ”μΈ‘ λ””μ½”λ”© λͺ¨λΈμ—μ„œμ˜ νš¨κ³Όμ— λŒ€ν•œ 좔가적인 μ‹€ν—˜μ΄ ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘