Sign In

Understand and Accelerate Memory Processing Pipeline for Large Language Model Inference

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Zifan He, Rui Ma, Yizhou Sun, Jason Cong

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM) μΆ”λ‘ μ—μ„œ μž₯λ¬Έ λ§₯락 처리 및 생성 λ©”μ»€λ‹ˆμ¦˜μ— ν•„μˆ˜μ μΈ λ©”λͺ¨λ¦¬ 처리 νŒŒμ΄ν”„λΌμΈμ˜ 병λͺ© ν˜„μƒμ„ λΆ„μ„ν•©λ‹ˆλ‹€. 연ꡬ진은 λ©”λͺ¨λ¦¬ 처리 과정을 λ„€ κ°€μ§€ 단계(Prepare Memory, Compute Relevancy, Retrieval, Apply to Inference)둜 ν†΅ν•©ν•˜κ³ , 이 κ³Όμ •μ—μ„œ λ°œμƒν•˜λŠ” 높은 λ©”λͺ¨λ¦¬ 처리 μ˜€λ²„ν—€λ“œμ™€ 계산 νŠΉμ„±μ˜ λΆˆκ· μΌμ„±μ„ λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ GPU와 FPGA의 이기쒅 μ‹œμŠ€ν…œμ„ ν™œμš©ν•˜μ—¬ 각 연산에 μ΅œμ ν™”λœ ν•˜λ“œμ›¨μ–΄λ‘œ μž‘μ—…μ„ λΆ„μ‚°μ‹œν‚΄μœΌλ‘œμ¨ LLM μΆ”λ‘  속도와 μ—λ„ˆμ§€ νš¨μœ¨μ„±μ„ 크게 ν–₯μƒμ‹œμΌ°μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM μΆ”λ‘  μ„±λŠ₯ ν–₯상을 μœ„ν•΄ λ©”λͺ¨λ¦¬ 처리 νŒŒμ΄ν”„λΌμΈ μ΅œμ ν™”κ°€ μ€‘μš”ν•˜λ©°, 이λ₯Ό λ„€ κ°€μ§€ λ‹¨κ³„λ‘œ μΌλ°˜ν™”ν•˜μ—¬ 뢄석할 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
GPU와 FPGAλ₯Ό ν™œμš©ν•œ 이기쒅 μ‹œμŠ€ν…œμ€ LLM μΆ”λ‘ μ˜ λ©”λͺ¨λ¦¬ 처리 μ˜€λ²„ν—€λ“œλ₯Ό 쀄이고 μ „λ°˜μ μΈ μ„±λŠ₯을 λ†’μ΄λŠ” 데 νš¨κ³Όμ μž…λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” LLM λ©”λͺ¨λ¦¬ 처리 가속을 μœ„ν•œ μ‹€μš©μ μΈ λ°©ν–₯을 μ œμ‹œν•˜λ©°, ν–₯ν›„ 이기쒅 ν•˜λ“œμ›¨μ–΄ 섀계에 λŒ€ν•œ 정보λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
(ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ 과제) νŠΉμ • LLM μ•„ν‚€ν…μ²˜ 및 μ—°μ‚° 집약도에 따라 이기쒅 μ‹œμŠ€ν…œμ˜ 졜적 ꡬ성 및 μ„±λŠ₯ ν–₯상 정도가 λ‹¬λΌμ§ˆ 수 있으며, 이에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘