Sign In

DC-DiT: Adaptive Compute and Elastic Inference for Visual Generation via Dynamic Chunking

Created by
  • Haebom
Category
Empty

μ €μž

Akash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum

πŸ’‘ κ°œμš”

λ³Έ 논문은 κΈ°μ‘΄ ν™•μ‚° λͺ¨λΈμ˜ κ³ μ •λœ 패치 토큰화 λ°©μ‹μ˜ λΉ„νš¨μœ¨μ„±μ„ ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 동적 μ²­ν‚Ή(Dynamic Chunking)을 λ„μž…ν•œ DC-DiTλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. DC-DiTλŠ” ν•™μŠ΅ κ°€λŠ₯ν•œ 인코더-λΌμš°ν„°-디코더 ꡬ쑰λ₯Ό 톡해 μž…λ ₯ 이미지λ₯Ό λ™μ μœΌλ‘œ μ••μΆ•ν•˜μ—¬ 토큰 μ‹œν€€μŠ€λ₯Ό 쀄이며, 이λ₯Ό 톡해 예츑 κ°€λŠ₯ν•œ μ˜μ—­μ΄λ‚˜ 초기 μŠ€ν…μ—λŠ” 적은 토큰을, 상세 μ˜μ—­μ΄λ‚˜ ν›„κΈ° μŠ€ν…μ—λŠ” 더 λ§Žμ€ 토큰을 ν• λ‹Ήν•©λ‹ˆλ‹€. 결과적으둜, DC-DiTλŠ” μΆ”λ‘  μ‹œ κ³„μ‚°λŸ‰μ„ μ΅œλŒ€ 36.8% 쀄이고 FID 점수λ₯Ό μ΅œλŒ€ 37.8% ν–₯μƒμ‹œν‚€λ©΄μ„œλ„ ν’ˆμ§ˆ-κ³„μ‚°λŸ‰ κ°„μ˜ μš°μˆ˜ν•œ μ ˆμΆ©μ•ˆμ„ μ œμ‹œν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
효율적인 μ‹œκ° 생성: 동적 토큰 할당을 톡해 계산 νš¨μœ¨μ„±μ„ 크게 높이고 생성 ν’ˆμ§ˆμ„ ν–₯μƒμ‹œν‚¬ 수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
μœ μ—°ν•œ μΆ”λ‘ : 단일 λͺ¨λΈλ‘œ λ‹€μ–‘ν•œ 계산 μ˜ˆμ‚°μ— 맞좰 μœ μ—°ν•œ 좔둠이 κ°€λŠ₯ν•˜λ©°, ν’ˆμ§ˆ-κ³„μ‚°λŸ‰ κ°„μ˜ λΆ€λ“œλŸ¬μš΄ μ ˆμΆ©μ•ˆμ„ μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
μž¬ν™œμš© 및 ν™•μž₯μ„±: 사전 ν•™μŠ΅λœ λͺ¨λΈλ‘œλΆ€ν„° μ‰½κ²Œ μ—…κ·Έλ ˆμ΄λ“œν•  수 있으며, λ‹€λ₯Έ 동적 계산 μ ‘κ·Ό 방식과도 ν˜Έν™˜λ©λ‹ˆλ‹€.
β€’
ν–₯ν›„ 과제: λ³Έ μ—°κ΅¬μ—μ„œ μ œμ•ˆλœ ν•™μŠ΅ κ°€λŠ₯ν•œ λΌμš°ν„°μ˜ μ€‘μš”λ„ μˆœμ„œ κ²°μ • λ©”μ»€λ‹ˆμ¦˜μ΄ 더 λ³΅μž‘ν•œ λ°μ΄ν„°μ…‹μ΄λ‚˜ 생성 μž‘μ—…μ—μ„œ μ–Όλ§ˆλ‚˜ νš¨κ³Όμ μΌμ§€μ— λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘