λ³Έ λ
Όλ¬Έμ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM) μΆλ‘ μμ μ₯λ¬Έ λ§₯λ½ μ²λ¦¬ λ° μμ± λ©μ»€λμ¦μ νμμ μΈ λ©λͺ¨λ¦¬ μ²λ¦¬ νμ΄νλΌμΈμ λ³λͺ© νμμ λΆμν©λλ€. μ°κ΅¬μ§μ λ©λͺ¨λ¦¬ μ²λ¦¬ κ³Όμ μ λ€ κ°μ§ λ¨κ³(Prepare Memory, Compute Relevancy, Retrieval, Apply to Inference)λ‘ ν΅ν©νκ³ , μ΄ κ³Όμ μμ λ°μνλ λμ λ©λͺ¨λ¦¬ μ²λ¦¬ μ€λ²ν€λμ κ³μ° νΉμ±μ λΆκ· μΌμ±μ λ°κ²¬νμ΅λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ GPUμ FPGAμ μ΄κΈ°μ’
μμ€ν
μ νμ©νμ¬ κ° μ°μ°μ μ΅μ νλ νλμ¨μ΄λ‘ μμ
μ λΆμ°μν΄μΌλ‘μ¨ LLM μΆλ‘ μλμ μλμ§ ν¨μ¨μ±μ ν¬κ² ν₯μμμΌ°μ΅λλ€.