haebom
Sign In
DMax: Aggressive Parallel Decoding for dLLMs
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang
π‘ κ°μ
λ³Έ μ°κ΅¬λ λν¨μ μΈμ΄ λͺ¨λΈ(dLLMs)μ ν¨μ¨μ±μ λμ΄λ μλ‘μ΄ ν¨λ¬λ€μμΈ DMaxλ₯Ό μ μν©λλ€. DMaxλ κΈ°μ‘΄μ μ΄μ§ λ§μ€ν¬-ν ν° μ ν λ°©μκ³Ό λ¬λ¦¬, λμ½λ© κ³Όμ μ λ§μ€ν¬ μλ² λ©μμ ν ν° μλ² λ©μΌλ‘ μ μ§μ μΈ μκΈ° μ μ κ³Όμ μΌλ‘ μ¬ν΄μνμ¬ λμ½λ© λ³λ ¬μ±μ 곡격μ μΌλ‘ λμ΄λ©΄μλ μμ± νμ§μ μ μ§ν©λλ€. ν΅μ¬ κΈ°μ μΈ On-Policy Uniform Trainingμ λ§μ€ν¬λ λ° μ λνΌ dLLMμ ν¨κ³Όμ μΌλ‘ ν΅ν©νμ¬ μ€λ₯κ° ν¬ν¨λ μμΈ‘μμλ μ νν ν ν°μ 볡ꡬνλλ‘ λͺ¨λΈμ νλ ¨ν©λλ€.
π μμ¬μ λ° νκ³
β’
κΈ°μ‘΄ dLLMμ μ€λ₯ λμ λ¬Έμ λ₯Ό ν΄κ²°νμ¬ λμ½λ© λ³λ ¬μ±μ ν¬κ² ν₯μμμΌ°μ΅λλ€.
β’
μμ± νμ§ μ ν μμ΄ TPF(Tokens Per Second)λ₯Ό νκΈ°μ μΌλ‘ κ°μ νμ¬ μ€μ μ μ© κ°λ₯μ±μ λμμ΅λλ€.
β’
μ μλ On-Policy Uniform Training μ λ΅μ λ§μ€ν¬λ λ° μ λνΌ dLLM νλ ¨μ ν΅ν©νλ μλ‘μ΄ λ°©ν₯μ μ μν©λλ€.
β’
DMaxμ μ±λ₯μ΄ νΉμ λ²€μΉλ§ν¬μμ κ²μ¦λμμ§λ§, λ λ€μν νμ€ν¬μ λͺ¨λΈ κ·λͺ¨μμμ μΆκ°μ μΈ μ€νμ΄ νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage