haebom
Sign In
Fill the GAP: A Granular Alignment Paradigm for Visual Reasoning in Multimodal Large Language Models
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Yanting Miao, Yutao Sun, Dexin Wang, Mengyu Zhou, Pascal Poupart, Lei Lv, Qi Zhao, Li Wang, Hao Li, Xiaoxi Jiang, Guanjun Jiang
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λ©ν°λͺ¨λ¬ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(MLLM)μ΄ μΈλΆ λꡬλ μ΄λ―Έμ§ μμ±κΈ° μμ΄ μ€κ° μκ°μ μ¦κ±°λ₯Ό μμ±νλ μκ°μ μ μ¬ μΆλ‘ λ°©μμ λΆμμ μ±μ ν΄κ²°νκ³ μ ν©λλ€. μ°κ΅¬μ§μ κΈ°μ‘΄ λ°©μμ 'μΆλ ₯-μ λ ₯' μ μ¬ ν¨λ¬λ€μμμ λ°μνλ νΉμ§ κ³΅κ° λΆμΌμΉ λ¬Έμ λ₯Ό μ§μ νλ©°, μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ νΉμ§, λ¬Έλ§₯, μ©λ μΈ κ°μ§ μμ€μμ μκ°μ μ μ¬ μΆλ‘ μ μ λ ¬νλ μλ‘μ΄ ν¨λ¬λ€μμΈ GAP(Granular Alignment Paradigm)λ₯Ό μ μν©λλ€. GAPλ Qwen2.5-VL 7B λͺ¨λΈμμ μ΅μ μ μ§κ° λ° μΆλ‘ μ±λ₯μ λ¬μ±νλ©°, μμ±λ μ μ¬ ν ν°μ΄ λ¨μν μΆκ°μ μΈ ν ν° μ¬λ‘―μ λμ΄ μμ κ΄λ ¨ μκ°μ μ νΈλ₯Ό μ 곡ν¨μ μ μ¦νμ΅λλ€.
π μμ¬μ λ° νκ³
β’
MLLMμ μκ°μ μ μ¬ μΆλ‘ μμ νΉμ§ κ³΅κ° λΆμΌμΉκ° μ±λ₯ λΆμμ μ±μ μ£Όμ μμΈμμ κ·λͺ νμ΅λλ€.
β’
μ μλ GAP ν¨λ¬λ€μμ νΉμ§, λ¬Έλ§₯, μ©λ μμ€μ μ λ ¬μ ν΅ν΄ MLLMμ μκ°μ μ μ¬ μΆλ‘ μ±λ₯μ ν¨κ³Όμ μΌλ‘ ν₯μμν¬ μ μμμ 보μ¬μ€λλ€.
β’
λ³Έ μ°κ΅¬λ μμ±λ μ μ¬ ν ν°μ΄ λͺ¨λΈμ μμ¬ κ²°μ κ³Όμ μ μ€μ§μ μΈ μκ°μ μ 보λ₯Ό μ 곡νλ€λ κ²μ μμ¬ν©λλ€.
β’
ν₯ν μ°κ΅¬μμλ GAP ν¨λ¬λ€μμ λ ν° κ·λͺ¨μ MLLMμ μ μ©νκ³ , λ€μν λ©ν°λͺ¨λ¬ νμ€ν¬μ λν μΌλ°ν μ±λ₯μ νκ°ν νμκ° μμ΅λλ€.
PDF 보기
Made with Slashpage