Sign In

What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis

Created by
  • Haebom
Category
Empty

μ €μž

Xirui Li, Ming Li, Tianyi Zhou

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” μ‹œκ° μΆ”λ‘  λŠ₯λ ₯을 ν–₯μƒμ‹œν‚€κΈ° μœ„ν•œ κ°•ν™”ν•™μŠ΅(RL) ν›„μ²˜λ¦¬ λ‹¨κ³„μ˜ μ‹€μ œ 효과λ₯Ό 규λͺ…ν•˜κ³ μž ν•©λ‹ˆλ‹€. μ œμ•ˆλœ ν”„λž­ν¬μΌ„μŠˆνƒ€μΈμ‹ 뢄석 ν”„λ ˆμž„μ›Œν¬λŠ” 인과적 탐색, νŒŒλΌλ―Έν„° 비ꡐ, λͺ¨λΈ 병합을 톡해 RL이 주둜 λͺ¨λΈμ˜ ν›„λ°˜ λ ˆμ΄μ–΄μ—μ„œ μΆ”λ‘  μ‹œκ°„μ˜ λ³€ν™”λ₯Ό μœ λ„ν•˜λ©°, μ΄λŠ” μ‹œκ° 정보와 μΆ”λ‘  λŠ₯λ ₯ κ°„μ˜ 정렬을 κ°œμ„ ν•˜κ³  μ„±λŠ₯을 ν–₯μƒμ‹œν‚¨λ‹€λŠ” 것을 λ°ν˜€λƒˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
κ°•ν™”ν•™μŠ΅μ€ μ‹œκ° 인식 자체의 보편적 ν–₯상이 μ•„λ‹Œ, μ‹œκ°-μΆ”λ‘  정렬을 κ°•ν™”ν•˜λŠ” ν›„λ°˜ λ ˆμ΄μ–΄ μ—°μ‚°μ˜ 체계적 μ •μ œλ₯Ό 톡해 μ‹œκ° μΆ”λ‘  μ„±λŠ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.
β€’
RL둜 μΈν•œ κ°œμ„ μ€ λͺ¨λΈ 병합을 톡해 λ‹€λ₯Έ λͺ¨λΈλ‘œ 이전될 수 있으며, ν›„λ°˜ λ ˆμ΄μ–΄λ₯Ό κ³ μ •ν•¨μœΌλ‘œμ¨ κ·Έ ν•„μš”μ„±μ„ μž…μ¦ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
벀치마크 μ„±λŠ₯λ§ŒμœΌλ‘œλŠ” 닀쀑 λͺ¨λ“œ μΆ”λ‘  λŠ₯λ ₯ ν–₯상을 μ™„μ „νžˆ μ΄ν•΄ν•˜λŠ” 데 ν•œκ³„κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘