Sign In

DMax: Aggressive Parallel Decoding for dLLMs

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” 디퓨전 μ–Έμ–΄ λͺ¨λΈ(dLLMs)의 νš¨μœ¨μ„±μ„ λ†’μ΄λŠ” μƒˆλ‘œμš΄ νŒ¨λŸ¬λ‹€μž„μΈ DMaxλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. DMaxλŠ” 기쑴의 이진 마슀크-토큰 μ „ν™˜ 방식과 달리, λ””μ½”λ”© 과정을 마슀크 μž„λ² λ”©μ—μ„œ 토큰 μž„λ² λ”©μœΌλ‘œ 점진적인 자기 μ •μ œ κ³Όμ •μœΌλ‘œ μž¬ν•΄μ„ν•˜μ—¬ λ””μ½”λ”© 병렬성을 곡격적으둜 λ†’μ΄λ©΄μ„œλ„ 생성 ν’ˆμ§ˆμ„ μœ μ§€ν•©λ‹ˆλ‹€. 핡심 기술인 On-Policy Uniform Training은 λ§ˆμŠ€ν¬λ“œ 및 μœ λ‹ˆνΌ dLLM을 효과적으둜 ν†΅ν•©ν•˜μ—¬ 였λ₯˜κ°€ ν¬ν•¨λœ μ˜ˆμΈ‘μ—μ„œλ„ μ •ν™•ν•œ 토큰을 λ³΅κ΅¬ν•˜λ„λ‘ λͺ¨λΈμ„ ν›ˆλ ¨ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
κΈ°μ‘΄ dLLM의 였λ₯˜ λˆ„μ  문제λ₯Ό ν•΄κ²°ν•˜μ—¬ λ””μ½”λ”© 병렬성을 크게 ν–₯μƒμ‹œμΌ°μŠ΅λ‹ˆλ‹€.
β€’
생성 ν’ˆμ§ˆ μ €ν•˜ 없이 TPF(Tokens Per Second)λ₯Ό 획기적으둜 κ°œμ„ ν•˜μ—¬ μ‹€μ œ 적용 κ°€λŠ₯성을 λ†’μ˜€μŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ On-Policy Uniform Training μ „λž΅μ€ λ§ˆμŠ€ν¬λ“œ 및 μœ λ‹ˆνΌ dLLM ν›ˆλ ¨μ„ ν†΅ν•©ν•˜λŠ” μƒˆλ‘œμš΄ λ°©ν–₯을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
DMax의 μ„±λŠ₯이 νŠΉμ • λ²€μΉ˜λ§ˆν¬μ—μ„œ κ²€μ¦λ˜μ—ˆμ§€λ§Œ, 더 λ‹€μ–‘ν•œ νƒœμŠ€ν¬μ™€ λͺ¨λΈ 규λͺ¨μ—μ„œμ˜ 좔가적인 μ‹€ν—˜μ΄ ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘