Sign In

Steering Visual Generation in Unified Multimodal Models with Understanding Supervision

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Zeyu Liu, Zanlin Ni, Yang Yue, Cheng Da, Huan Yang, Di Zhang, Kun Gai, Gao Huang

πŸ’‘ κ°œμš”

λ³Έ 논문은 이해와 생성을 ν†΅ν•©ν•˜λŠ” λ©€ν‹°λͺ¨λ‹¬ λͺ¨λΈμ˜ 잠재λ ₯을 νƒκ΅¬ν•˜λ©°, κΈ°μ‘΄ λͺ¨λΈλ“€μ΄ 이해와 생성 뢀뢄을 λΆ„λ¦¬ν•˜λŠ” κ²½ν–₯이 μžˆμŒμ„ μ§€μ ν•œλ‹€. μ œμ•ˆλœ UNO(Understanding-Oriented Post-Training) ν”„λ ˆμž„μ›Œν¬λŠ” 이해λ₯Ό λ³„λ„μ˜ μž‘μ—…λΏλ§Œ μ•„λ‹ˆλΌ 생성 ν‘œν˜„μ„ μ œμ–΄ν•˜λŠ” 직접적인 감독 μ‹ ν˜Έλ‘œ ν™œμš©ν•˜μ—¬, 이해와 생성 κ°„μ˜ μ‹œλ„ˆμ§€λ₯Ό λ³΅μ›ν•œλ‹€. 이λ₯Ό 톡해 이미지 생성 및 νŽΈμ§‘ μž‘μ—…μ—μ„œ 이해 λŠ₯λ ₯이 생성 λŠ₯λ ₯을 효과적으둜 촉진함을 보여쀀닀.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λ©€ν‹°λͺ¨λ‹¬ λͺ¨λΈμ—μ„œ 이해와 생성 κ°„μ˜ λͺ…μ‹œμ μΈ 연결을 톡해 μƒν˜Έ λ°œμ „μ„ κ°•ν™”ν•  수 μžˆλ‹€.
β€’
캑셔닝 및 μ‹œκ° νšŒκ·€μ™€ 같은 이해 기반 λͺ©ν‘œλŠ” 생성 λͺ¨λΈμ˜ μ„±λŠ₯ ν–₯상에 효과적인 감독 μ‹ ν˜Έλ‘œ μž‘μš©ν•  수 μžˆλ‹€.
β€’
μ œμ•ˆλœ UNO ν”„λ ˆμž„μ›Œν¬μ˜ κ²½λŸ‰μ„±μ΄ λ‹€μ–‘ν•œ λ©€ν‹°λͺ¨λ‹¬ 생성 μž‘μ—…μ— μ‰½κ²Œ 적용될 수 μžˆλ‹€.
β€’
UNO ν”„λ ˆμž„μ›Œν¬κ°€ λ‹€μ–‘ν•œ 생성 μž‘μ—… 및 데이터셋에 λŒ€ν•΄ μ–Όλ§ˆλ‚˜ μΌλ°˜ν™”λ  수 μžˆλŠ”μ§€, 그리고 μ–΄λ–€ μ’…λ₯˜μ˜ 이해 감독이 κ°€μž₯ νš¨κ³Όμ μΈμ§€μ— λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•˜λ‹€.
πŸ‘