haebom
Sign In
GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning
Created by
Haebom
Category
Empty
μ μ
Chengqi Duan, Rongyao Fang, Yuqing Wang, Kun Wang, Linjiang Huang, Xingyu Zeng, Hongsheng Li, Xihui Liu
π‘ κ°μ
λ³Έ λ Όλ¬Έμ ν μ€νΈ μ€λͺ μμ 볡μ‘ν κ³΅κ° κ΄κ³μ μμ±μ κ°μ§ μ΄λ―Έμ§λ₯Ό μμ±νλ λ° μμ΄ λ€μ€ λͺ¨λ¬ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(MLLM)μ μΆλ‘ λ₯λ ₯μ κ°ννλ GoT-R1 νλ μμν¬λ₯Ό μ μν©λλ€. GoT-R1μ κ°ν νμ΅μ ν΅ν΄ μ¬μ μ μλ ν νλ¦Ώμ λμ΄ ν¨κ³Όμ μΈ μΆλ‘ μ λ΅μ μ€μ€λ‘ λ°κ²¬νλλ‘ MLLMμ νλ ¨μν€λ©°, μ΄λ₯Ό μν΄ μΆλ‘ κ³Όμ κ³Ό μ΅μ’ κ²°κ³Όλ¬Όμ λͺ¨λ νκ°νλ μ΄μ€ λ¨κ³ λ€μ°¨μ 보μ μμ€ν μ λμ ν©λλ€. μ€ν κ²°κ³Ό, GoT-R1μ νΉν 볡μ‘ν κ΅¬μ± λ₯λ ₯μ΄ μꡬλλ λ²€μΉλ§ν¬μμ ν μ€νΈ-μ΄λ―Έμ§ μμ± μ±λ₯μ ν¬κ² ν₯μμμΌ°μ΅λλ€.
π μμ¬μ λ° νκ³
β’
볡μ‘ν ν μ€νΈ μ€λͺ μ κΈ°λ°ν μ ννκ³ μλ―Έλ‘ μ μΌλ‘ μΌκ΄λ μ΄λ―Έμ§ μμ± λ₯λ ₯μ κ°ννλ μλ‘μ΄ κ°ν νμ΅ κΈ°λ° νλ μμν¬λ₯Ό μ μν©λλ€.
β’
MLLMμ νμ©ν μΆλ‘ κ³Όμ κ³Ό μ΅μ’ μ΄λ―Έμ§ νμ§μ ν΅ν©μ μΌλ‘ νκ°νλ 보μ μμ€ν μ μ 체 μμ± νμ΄νλΌμΈμ λν ν¨κ³Όμ μΈ μ§λλ₯Ό κ°λ₯νκ² ν©λλ€.
β’
ν μ€νΈ-μ΄λ―Έμ§ μμ± λΆμΌμμ μ¬μ μ μλ μΆλ‘ λ°©μμμ λ²μ΄λ λͺ¨λΈ μ€μ€λ‘ μ΅μ μ μ λ΅μ νμ΅νλλ‘ ν¨μΌλ‘μ¨ SOTA(State-of-the-Art)λ₯Ό λ¬μ±νμ΅λλ€.
β’
λ³Έ μ°κ΅¬λ μ€μ μ΄λ―Έμ§ μμ±μ μ¬μ©λλ MLLMμ μΆλ‘ λ₯λ ₯μ ν₯μμν€λ λ° κΈ°μ¬νμ§λ§, λμ± μ κ΅νκ³ λ³΅μ‘ν κ³΅κ° κ΄κ³ λ° λ€μν μμ± μ‘°ν©μ λν μΌλ°ν μ±λ₯ ν₯μμ΄ ν₯ν μ°κ΅¬ κ³Όμ λ‘ λ¨μμμ΅λλ€.
PDF 보기
Made with Slashpage