Sign In

Credit Where It is Due: Cross-Modality Connectivity Drives Precise Reinforcement Learning for MLLM Reasoning

Created by
  • Haebom
Category
Empty

μ €μž

Zhengbo Jiao, Shaobo Wang, Zifan Zhang, Wei Wang, Bing Zhao, Hu Wei, Linfeng Zhang

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λ©€ν‹°λͺ¨λ‹¬ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(MLLM)의 μΆ”λ‘  λŠ₯λ ₯ ν–₯상을 μœ„ν•œ κ°•ν™”ν•™μŠ΅(RL)μ—μ„œ μ‹œκ°μ  증거의 톡합 방식을 νƒκ΅¬ν•©λ‹ˆλ‹€. MLLM의 μΆ”λ‘  λŠ₯λ ₯ ν–₯상에 κΈ°μ—¬ν•˜λŠ” κ°•ν™”ν•™μŠ΅κ³Όμ˜ 연관성을 λΆ„μ„ν•œ κ²°κ³Ό, μ†Œμˆ˜μ˜ ν† ν°λ§Œμ΄ κ°•ν•œ μ‹œκ°-ν…μŠ€νŠΈ 연관성을 보이며 μΆ”λ‘ μ˜ μ‹œκ°μ  κ·Όκ±° 역할을 ν•œλ‹€λŠ” 것을 λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό λ°”νƒ•μœΌλ‘œ μ œμ•ˆλœ AT-RL ν”„λ ˆμž„μ›Œν¬λŠ” κ·Έλž˜ν”„ 기반 ν΄λŸ¬μŠ€ν„°λ§μ„ 톡해 μ΄λŸ¬ν•œ 핡심 토큰에 μ„ νƒμ μœΌλ‘œ κ°•ν™”ν•™μŠ΅μ„ μ μš©ν•˜μ—¬, 적은 μ˜€λ²„ν—€λ“œλ‘œλ„ MLLM의 μΆ”λ‘  μ„±λŠ₯을 크게 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
MLLM의 μΆ”λ‘  μ„±λŠ₯은 λ‹¨μˆœνžˆ ν† ν°μ˜ 양이 μ•„λ‹Œ, μ‹œκ°μ  근거의 정확성에 μ˜ν•΄ κ²°μ •λ©λ‹ˆλ‹€.
β€’
μ‹œκ°-ν…μŠ€νŠΈ κ°„ 높은 연결성을 κ°–λŠ” 토큰(액컀 토큰)이 MLLM의 κ°•ν™”ν•™μŠ΅ κ³Όμ •μ—μ„œ μ€‘μš”ν•œ 역할을 ν•˜λ©°, 이λ₯Ό μ§‘μ€‘μ μœΌλ‘œ ν•™μŠ΅μ‹œν‚€λŠ” 것이 νš¨κ³Όμ μž…λ‹ˆλ‹€.
β€’
AT-RL은 κ²½λŸ‰ ν”„λ ˆμž„μ›Œν¬λ‘œ, 적은 κ³„μ‚°λŸ‰ 증가에도 MLLM의 μΆ”λ‘  λŠ₯λ ₯을 μƒλ‹Ήν•œ μˆ˜μ€€μœΌλ‘œ λŒμ–΄μ˜¬λ¦΄ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
ν•™μŠ΅μ—μ„œ μ‹œκ°μ  액컀가 μ•„λ‹Œ ν† ν°μ—λ§Œ 집쀑할 경우 였히렀 μ„±λŠ₯이 μ €ν•˜λ  수 μžˆμ–΄, μ •ν™•ν•œ μ‹ μš© ν• λ‹Ήμ˜ μ€‘μš”μ„±μ„ κ°•μ‘°ν•©λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” λ‹€μ–‘ν•œ λ©€ν‹°λͺ¨λ‹¬ νƒœμŠ€ν¬ 및 MLLM μ•„ν‚€ν…μ²˜μ— AT-RL을 μ μš©ν•˜μ—¬ μΌλ°˜ν™” κ°€λŠ₯성을 νƒμƒ‰ν•˜κ³ , 액컀 토큰 식별 및 κ°•ν™” 방식을 λ”μš± 고도화할 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘