Sign In

Fill the GAP: A Granular Alignment Paradigm for Visual Reasoning in Multimodal Large Language Models

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yanting Miao, Yutao Sun, Dexin Wang, Mengyu Zhou, Pascal Poupart, Lei Lv, Qi Zhao, Li Wang, Hao Li, Xiaoxi Jiang, Guanjun Jiang

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λ©€ν‹°λͺ¨λ‹¬ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(MLLM)이 μ™ΈλΆ€ 도ꡬ 없이 쀑간 μ‹œκ°μ  증거λ₯Ό μƒμ„±ν•˜μ—¬ μ‹œκ°μ  μΆ”λ‘  λŠ₯λ ₯을 ν–₯μƒμ‹œν‚€λŠ” "GAP (Granular Alignment Paradigm)"λΌλŠ” μƒˆλ‘œμš΄ 방법둠을 μ œμ•ˆν•©λ‹ˆλ‹€. κΈ°μ‘΄ λ°©μ‹μ˜ λΆˆμ•ˆμ •μ„±μ„ κ·Ήλ³΅ν•˜κΈ° μœ„ν•΄, GAPλŠ” νŠΉμ§• 곡간 뢈일치 문제λ₯Ό ν•΄κ²°ν•˜κ³  μ„Έ κ°€μ§€ μˆ˜μ€€(νŠΉμ§•, λ¬Έλ§₯, μš©λŸ‰)μ—μ„œ μ‹œκ°μ  잠재 좔둠을 μ„Έλ°€ν•˜κ²Œ μ‘°μ •ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 Qwen2.5-VL 7B λͺ¨λΈμ—μ„œ λ›°μ–΄λ‚œ 인식 및 μΆ”λ‘  μ„±λŠ₯ ν–₯상을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
MLLM의 μ‹œκ°μ  잠재 μΆ”λ‘ μ—μ„œ νŠΉμ§• 곡간 뢈일치 λ¬Έμ œκ°€ μ„±λŠ₯ λΆˆμ•ˆμ •μ„±μ˜ μ£Όμš” μ›μΈμž„μ„ 규λͺ…ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ GAP 방법둠은 νŠΉμ§•, λ¬Έλ§₯, μš©λŸ‰ μˆ˜μ€€μ˜ μ„Έλ°€ν•œ 정렬을 톡해 MLLM의 μ‹œκ°μ  잠재 μΆ”λ‘  μ„±λŠ₯을 μ•ˆμ •μ μœΌλ‘œ ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μƒμ„±λœ 잠재 토큰이 λ‹¨μˆœνžˆ 좔가적인 토큰 μŠ¬λ‘―μ„ λ„˜μ–΄ μž‘μ—… κ΄€λ ¨ μ‹œκ°μ  μ‹ ν˜Έλ₯Ό μ œκ³΅ν•œλ‹€λŠ” 것을 μ‹€ν—˜μ μœΌλ‘œ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
GAP의 μ„±λŠ₯은 기반 MLLM의 초기 μ„±λŠ₯ 및 νŠΉμ • μž‘μ—…μ— λŒ€ν•œ ν•™μŠ΅ λ°μ΄ν„°μ˜ ν’ˆμ§ˆμ— 영ν–₯을 받을 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ„Έ κ°€μ§€ μˆ˜μ€€μ˜ 정렬을 μ μš©ν•˜λŠ” 데 좔가적인 계산 λΉ„μš©μ΄ λ°œμƒν•  수 있으며, 특히 λŒ€κ·œλͺ¨ λͺ¨λΈμ—μ„œλŠ” μ΅œμ ν™”κ°€ ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘