λ³Έ λ
Όλ¬Έμ κΈ°μ‘΄ Multi-head Latent Attention (MLA)μ H100 νλμ¨μ΄ μ΅μ νλ λμ½λ© κ²½λ‘κ° λ€λ₯Έ νλμ¨μ΄μμλ ν¨μ¨μ±μ μ ν΄νκ³ Multi-Token Prediction (MTP) μ΄λμ μ»μ§ λͺ»νλ λ¬Έμ λ₯Ό ν΄κ²°νκ³ μ ν©λλ€. μ΄λ₯Ό μν΄ Group-Query Latent Attention (GQLA)μ μ μνλ©°, μ΄λ λ¨μΌ λͺ¨λΈ κ°μ€μΉλ‘ H100κ³Ό H20 λ± λ€μν νλμ¨μ΄μ μ΅μ νλ λ κ°μ§ λμ½λ© κ²½λ‘(MQA-absorb κ²½λ‘ λ° GQA κ²½λ‘)λ₯Ό μ 곡ν©λλ€. GQLAλ μ¬μ νμ΅λ GQA λͺ¨λΈμ λ³ννλ TransGQLAλ₯Ό ν΅ν΄ ν¨μ¨μ μΌλ‘ μ μ©λ μ μμΌλ©°, KV μΊμ μμΆ λ° μ λ‘ μ€λ³΅ ν
μ λ³λ ¬ μ²λ¦¬λ₯Ό μ§μν©λλ€.