haebom
Sign In
Credit Where It is Due: Cross-Modality Connectivity Drives Precise Reinforcement Learning for MLLM Reasoning
Created by
Haebom
Category
Empty
μ μ
Zhengbo Jiao, Shaobo Wang, Zifan Zhang, Wei Wang, Bing Zhao, Hu Wei, Linfeng Zhang
π‘ κ°μ
λ³Έ μ°κ΅¬λ λ©ν°λͺ¨λ¬ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(MLLM)μ μΆλ‘ λ₯λ ₯ ν₯μμ μν κ°ννμ΅(RL)μμ μκ°μ μ¦κ±°μ ν΅ν© λ°©μμ νꡬν©λλ€. MLLMμ μΆλ‘ λ₯λ ₯ ν₯μμ κΈ°μ¬νλ κ°ννμ΅κ³Όμ μ°κ΄μ±μ λΆμν κ²°κ³Ό, μμμ ν ν°λ§μ΄ κ°ν μκ°-ν μ€νΈ μ°κ΄μ±μ 보μ΄λ©° μΆλ‘ μ μκ°μ κ·Όκ±° μν μ νλ€λ κ²μ λ°κ²¬νμ΅λλ€. μ΄λ₯Ό λ°νμΌλ‘ μ μλ AT-RL νλ μμν¬λ κ·Έλν κΈ°λ° ν΄λ¬μ€ν°λ§μ ν΅ν΄ μ΄λ¬ν ν΅μ¬ ν ν°μ μ νμ μΌλ‘ κ°ννμ΅μ μ μ©νμ¬, μ μ μ€λ²ν€λλ‘λ MLLMμ μΆλ‘ μ±λ₯μ ν¬κ² ν₯μμν΅λλ€.
π μμ¬μ λ° νκ³
β’
MLLMμ μΆλ‘ μ±λ₯μ λ¨μν ν ν°μ μμ΄ μλ, μκ°μ κ·Όκ±°μ μ νμ±μ μν΄ κ²°μ λ©λλ€.
β’
μκ°-ν μ€νΈ κ° λμ μ°κ²°μ±μ κ°λ ν ν°(μ΅μ»€ ν ν°)μ΄ MLLMμ κ°ννμ΅ κ³Όμ μμ μ€μν μν μ νλ©°, μ΄λ₯Ό μ§μ€μ μΌλ‘ νμ΅μν€λ κ²μ΄ ν¨κ³Όμ μ λλ€.
β’
AT-RLμ κ²½λ νλ μμν¬λ‘, μ μ κ³μ°λ μ¦κ°μλ MLLMμ μΆλ‘ λ₯λ ₯μ μλΉν μμ€μΌλ‘ λμ΄μ¬λ¦΄ μ μμ΅λλ€.
β’
νμ΅μμ μκ°μ μ΅μ»€κ° μλ ν ν°μλ§ μ§μ€ν κ²½μ° μ€νλ € μ±λ₯μ΄ μ νλ μ μμ΄, μ νν μ μ© ν λΉμ μ€μμ±μ κ°μ‘°ν©λλ€.
β’
ν₯ν μ°κ΅¬μμλ λ€μν λ©ν°λͺ¨λ¬ νμ€ν¬ λ° MLLM μν€ν μ²μ AT-RLμ μ μ©νμ¬ μΌλ°ν κ°λ₯μ±μ νμνκ³ , μ΅μ»€ ν ν° μλ³ λ° κ°ν λ°©μμ λμ± κ³ λνν νμκ° μμ΅λλ€.
PDF 보기
Made with Slashpage