Sign In

DIVA-GRPO: Enhancing Multimodal Reasoning through Difficulty-Adaptive Variant Advantage

Created by
  • Haebom
Category
Empty

μ €μž

Haowen Gao, Zhenyu Zhang, Liang Pang, Fangda Guo, Hongjian Dou, Guannan Lv, Shaoguo Liu, Tingting Gao, Huawei Shen, Xueqi Cheng

πŸ’‘ κ°œμš”

λ³Έ 논문은 λ©€ν‹°λͺ¨λ‹¬ λŒ€ν˜• μ–Έμ–΄ λͺ¨λΈ(MLLMs)의 μž₯κΈ° μΆ”λ‘  λŠ₯λ ₯을 ν–₯μƒμ‹œν‚€λŠ” κ°•ν™” ν•™μŠ΅ 기법인 GRPO의 단점, 특히 μ–΄λ €μš΄ λ¬Έμ œμ—μ„œμ˜ ν¬μ†Œ 보상 및 λ„ˆλ¬΄ μ‰¬μš΄/μ–΄λ €μš΄ λ¬Έμ œμ—μ„œμ˜ μ–΄λ“œλ°΄ν‹°μ§€ μ†Œμ‹€ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•œ DIVA-GRPOλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. DIVA-GRPOλŠ” 전역적 κ΄€μ μ—μ„œ λ‚œμ΄λ„ μ μ‘ν˜• λ³€ν˜• 이점을 μ‘°μ •ν•˜μ—¬, 문제 λ‚œμ΄λ„λ₯Ό λ™μ μœΌλ‘œ ν‰κ°€ν•˜κ³  μ μ ˆν•œ λ‚œμ΄λ„μ˜ λ³€ν˜•μ„ μƒ˜ν”Œλ§ν•˜λ©°, λ‚œμ΄λ„ 가쀑 및 μ •κ·œν™” μŠ€μΌ€μΌλ§μ„ 톡해 μ§€μ—­ 및 μ „μ—­ κ·Έλ£Ή κ°„μ˜ μ–΄λ“œλ°΄ν‹°μ§€λ₯Ό κ³„μ‚°ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 보상 ν¬μ†Œμ„±κ³Ό μ–΄λ“œλ°΄ν‹°μ§€ μ†Œμ‹€ 문제λ₯Ό μ™„ν™”ν•˜κ³  ν•™μŠ΅ μ•ˆμ •μ„±μ„ κ°œμ„ ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
GRPO의 효과λ₯Ό μœ μ§€ν•˜λ©΄μ„œ 보상 ν¬μ†Œμ„±κ³Ό μ–΄λ“œλ°΄ν‹°μ§€ μ†Œμ‹€ 문제λ₯Ό 효과적으둜 ν•΄κ²°ν•˜λŠ” μƒˆλ‘œμš΄ κ°•ν™” ν•™μŠ΅ μ ‘κ·Ό 방식을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
λ‚œμ΄λ„ μ μ‘ν˜• λ³€ν˜• μƒ˜ν”Œλ§ 및 μ–΄λ“œλ°΄ν‹°μ§€ 계산 방식을 톡해 ν•™μŠ΅ νš¨μœ¨μ„±κ³Ό μΆ”λ‘  μ„±λŠ₯을 λ™μ‹œμ— ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.
β€’
ν˜„μž¬ μ œμ•ˆλœ 방법은 νŠΉμ • λ©€ν‹°λͺ¨λ‹¬ μΆ”λ‘  λ²€μΉ˜λ§ˆν¬μ—μ„œ μ„±λŠ₯을 μž…μ¦ν•˜μ˜€μœΌλ‚˜, λ‹€μ–‘ν•œ λ„λ©”μΈμ΄λ‚˜ λ”μš± λ³΅μž‘ν•œ μΆ”λ‘  νƒœμŠ€ν¬μ— λŒ€ν•œ μΌλ°˜ν™” κ°€λŠ₯성은 μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘