Sign In

GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

Created by
  • Haebom
Category
Empty

μ €μž

Chengqi Duan, Rongyao Fang, Yuqing Wang, Kun Wang, Linjiang Huang, Xingyu Zeng, Hongsheng Li, Xihui Liu

πŸ’‘ κ°œμš”

λ³Έ 논문은 ν…μŠ€νŠΈ μ„€λͺ…μ—μ„œ λ³΅μž‘ν•œ 곡간 관계와 속성을 κ°€μ§„ 이미지λ₯Ό μƒμ„±ν•˜λŠ” 데 μžˆμ–΄ 닀쀑 λͺ¨λ‹¬ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(MLLM)의 μΆ”λ‘  λŠ₯λ ₯을 κ°•ν™”ν•˜λŠ” GoT-R1 ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. GoT-R1은 κ°•ν™” ν•™μŠ΅μ„ 톡해 사전 μ •μ˜λœ ν…œν”Œλ¦Ώμ„ λ„˜μ–΄ 효과적인 μΆ”λ‘  μ „λž΅μ„ 슀슀둜 λ°œκ²¬ν•˜λ„λ‘ MLLM을 ν›ˆλ ¨μ‹œν‚€λ©°, 이λ₯Ό μœ„ν•΄ μΆ”λ‘  κ³Όμ •κ³Ό μ΅œμ’… 결과물을 λͺ¨λ‘ ν‰κ°€ν•˜λŠ” 이쀑 단계 닀차원 보상 μ‹œμŠ€ν…œμ„ λ„μž…ν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, GoT-R1은 특히 λ³΅μž‘ν•œ ꡬ성 λŠ₯λ ₯이 μš”κ΅¬λ˜λŠ” λ²€μΉ˜λ§ˆν¬μ—μ„œ ν…μŠ€νŠΈ-이미지 생성 μ„±λŠ₯을 크게 ν–₯μƒμ‹œμΌ°μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λ³΅μž‘ν•œ ν…μŠ€νŠΈ μ„€λͺ…에 κΈ°λ°˜ν•œ μ •ν™•ν•˜κ³  의미둠적으둜 μΌκ΄€λœ 이미지 생성 λŠ₯λ ₯을 κ°•ν™”ν•˜λŠ” μƒˆλ‘œμš΄ κ°•ν™” ν•™μŠ΅ 기반 ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.
β€’
MLLM을 ν™œμš©ν•œ μΆ”λ‘  κ³Όμ •κ³Ό μ΅œμ’… 이미지 ν’ˆμ§ˆμ„ ν†΅ν•©μ μœΌλ‘œ ν‰κ°€ν•˜λŠ” 보상 μ‹œμŠ€ν…œμ€ 전체 생성 νŒŒμ΄ν”„λΌμΈμ— λŒ€ν•œ 효과적인 지도λ₯Ό κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.
β€’
ν…μŠ€νŠΈ-이미지 생성 λΆ„μ•Όμ—μ„œ 사전 μ •μ˜λœ μΆ”λ‘  λ°©μ‹μ—μ„œ λ²—μ–΄λ‚˜ λͺ¨λΈ 슀슀둜 졜적의 μ „λž΅μ„ ν•™μŠ΅ν•˜λ„λ‘ ν•¨μœΌλ‘œμ¨ SOTA(State-of-the-Art)λ₯Ό λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” μ‹€μ œ 이미지 생성에 μ‚¬μš©λ˜λŠ” MLLM의 μΆ”λ‘  λŠ₯λ ₯을 ν–₯μƒμ‹œν‚€λŠ” 데 κΈ°μ—¬ν•˜μ§€λ§Œ, λ”μš± μ •κ΅ν•˜κ³  λ³΅μž‘ν•œ 곡간 관계 및 λ‹€μ–‘ν•œ 속성 쑰합에 λŒ€ν•œ μΌλ°˜ν™” μ„±λŠ₯ ν–₯상이 ν–₯ν›„ 연ꡬ 과제둜 λ‚¨μ•„μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘