haebom
Sign In
DIVA-GRPO: Enhancing Multimodal Reasoning through Difficulty-Adaptive Variant Advantage
Created by
Haebom
Category
Empty
μ μ
Haowen Gao, Zhenyu Zhang, Liang Pang, Fangda Guo, Hongjian Dou, Guannan Lv, Shaoguo Liu, Tingting Gao, Huawei Shen, Xueqi Cheng
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λ©ν°λͺ¨λ¬ λν μΈμ΄ λͺ¨λΈ(MLLMs)μ μ₯κΈ° μΆλ‘ λ₯λ ₯μ ν₯μμν€λ κ°ν νμ΅ κΈ°λ²μΈ GRPOμ λ¨μ , νΉν μ΄λ €μ΄ λ¬Έμ μμμ ν¬μ 보μ λ° λ무 μ¬μ΄/μ΄λ €μ΄ λ¬Έμ μμμ μ΄λλ°΄ν°μ§ μμ€ λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν DIVA-GRPOλ₯Ό μ μν©λλ€. DIVA-GRPOλ μ μμ κ΄μ μμ λμ΄λ μ μν λ³ν μ΄μ μ μ‘°μ νμ¬, λ¬Έμ λμ΄λλ₯Ό λμ μΌλ‘ νκ°νκ³ μ μ ν λμ΄λμ λ³νμ μνλ§νλ©°, λμ΄λ κ°μ€ λ° μ κ·ν μ€μΌμΌλ§μ ν΅ν΄ μ§μ λ° μ μ κ·Έλ£Ή κ°μ μ΄λλ°΄ν°μ§λ₯Ό κ³μ°ν©λλ€. μ΄λ₯Ό ν΅ν΄ 보μ ν¬μμ±κ³Ό μ΄λλ°΄ν°μ§ μμ€ λ¬Έμ λ₯Ό μννκ³ νμ΅ μμ μ±μ κ°μ ν©λλ€.
π μμ¬μ λ° νκ³
β’
GRPOμ ν¨κ³Όλ₯Ό μ μ§νλ©΄μ 보μ ν¬μμ±κ³Ό μ΄λλ°΄ν°μ§ μμ€ λ¬Έμ λ₯Ό ν¨κ³Όμ μΌλ‘ ν΄κ²°νλ μλ‘μ΄ κ°ν νμ΅ μ κ·Ό λ°©μμ μ μν©λλ€.
β’
λμ΄λ μ μν λ³ν μνλ§ λ° μ΄λλ°΄ν°μ§ κ³μ° λ°©μμ ν΅ν΄ νμ΅ ν¨μ¨μ±κ³Ό μΆλ‘ μ±λ₯μ λμμ ν₯μμν΅λλ€.
β’
νμ¬ μ μλ λ°©λ²μ νΉμ λ©ν°λͺ¨λ¬ μΆλ‘ λ²€μΉλ§ν¬μμ μ±λ₯μ μ μ¦νμμΌλ, λ€μν λλ©μΈμ΄λ λμ± λ³΅μ‘ν μΆλ‘ νμ€ν¬μ λν μΌλ°ν κ°λ₯μ±μ μΆκ° μ°κ΅¬κ° νμν©λλ€.
PDF 보기
Made with Slashpage