Sign In

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yanke Zhou, Yiduo Li, Hanlin Tang, Maohua Li, Kan Liu, Lan Tao, Lin Qu, Yuan Yao, Xiaoxing Ma

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 κΈ΄ λ¬Έλ§₯ μΆ”λ‘  μ‹œ λ°œμƒν•˜λŠ” 이차적인 μ—°μ‚° λΉ„μš© 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, 기쑴의 효율적인 λŒ€μ•ˆλ“€μ΄ κ°€μ§„ νš¨μœ¨μ„±, ν›ˆλ ¨ λΉ„μš©, 정확도 κ°„μ˜ μ ˆμΆ©μ μ„ κ·Ήλ³΅ν•˜λŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식을 μ œμ•ˆν•©λ‹ˆλ‹€. μ—°κ΅¬νŒ€μ€ μ™„μ „ μ–΄ν…μ…˜ LLM이 본질적으둜 ν¬μ†Œν•˜λ‹€λŠ” 점에 μ°©μ•ˆν•˜μ—¬, μ†Œμˆ˜μ˜ μ–΄ν…μ…˜ ν—€λ“œλ§Œμ΄ κΈ΄ λ¬Έλ§₯ 처리λ₯Ό ν•„μš”λ‘œ ν•˜κ³ , μž₯거리 검색이 저차원 λΆ€λΆ„ 곡간에 μ˜ν•΄ μ§€λ°°λœλ‹€λŠ” 점을 λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό λ°”νƒ•μœΌλ‘œ, RTPurboλŠ” 검색 ν—€λ“œμ—λ§Œ 전체 KV μΊμ‹œλ₯Ό μœ μ§€ν•˜κ³  κ²½λŸ‰ 토큰 μΈλ±μ„œλ₯Ό λ„μž…ν•˜μ—¬, 수백 번의 ν›ˆλ ¨ λ‹¨κ³„λ§ŒμœΌλ‘œλ„ κΈ°μ‘΄ λͺ¨λΈμ˜ 정확도λ₯Ό 거의 κ·ΈλŒ€λ‘œ μœ μ§€ν•˜λ©΄μ„œ μƒλ‹Ήν•œ νš¨μœ¨μ„± ν–₯상을 λ‹¬μ„±ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λ‚΄μž¬λœ ν¬μ†Œμ„±μ˜ ν™œμš©: μ™„μ „ μ–΄ν…μ…˜ λͺ¨λΈμ΄ 이미 ν¬μ†Œν•œ νŠΉμ„±μ„ κ°€μ§€κ³  있으며, 이λ₯Ό 효율적으둜 ν™œμš©ν•˜μ—¬ 적은 ν›ˆλ ¨ λΉ„μš©μœΌλ‘œλ„ ν¬μ†Œν™”κ°€ κ°€λŠ₯ν•˜λ‹€λŠ” 점을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
νš¨μœ¨μ„±κ³Ό μ •ν™•λ„μ˜ κ· ν˜•: κΈ°μ‘΄ λ°©μ‹μ˜ μ ˆμΆ©μ μ„ κ·Ήλ³΅ν•˜κ³ , 높은 정확도λ₯Ό μœ μ§€ν•˜λ©΄μ„œλ„ μƒλ‹Ήν•œ μΆ”λ‘  속도 ν–₯상(κΈ΄ λ¬Έλ§₯ μΆ”λ‘  μ‹œ μ΅œλŒ€ 9.36λ°°, λ””μ½”λ”© μ‹œ 2.01λ°°)을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ν›ˆλ ¨ λΉ„μš© 절감: κ°’λΉ„μ‹Ό λ„€μ΄ν‹°λΈŒ ν¬μ†Œ 사전 ν›ˆλ ¨ 없이도 ν‘œμ€€ μ™„μ „ μ–΄ν…μ…˜ ν›ˆλ ¨μ„ 톡해 κ°•λ ₯ν•œ ν¬μ†Œ μΆ”λ‘  μ„±λŠ₯을 얻을 수 μžˆμŒμ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ 과제: μ œμ•ˆλœ 방법둠이 νŠΉμ • λͺ¨λΈ μ•„ν‚€ν…μ²˜λ‚˜ 데이터셋에 더 효과적일 수 있으며, λ‹€μ–‘ν•œ LLM 및 νƒœμŠ€ν¬μ— λŒ€ν•œ μΌλ°˜ν™” κ°€λŠ₯μ„± 검증이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, 16차원 μΈλ±μ„œμ˜ 섀계 및 μ΅œμ ν™”μ— λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘