Sign In

Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Qianhao Yuan, Jie Lou, Xing Yu, Hongyu Lin, Le Sun, Xianpei Han, Yaojie Lu

πŸ’‘ κ°œμš”

λ³Έ 논문은 λ©€ν‹°λͺ¨λ‹¬ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(MLLMs)이 μ΄λ―Έμ§€μ˜ μž‘μ€ μ„ΈλΆ€ 사항을 νŒŒμ•…ν•˜λŠ” 데 어렀움을 κ²ͺλŠ” 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ Vision-OPDλΌλŠ” μƒˆλ‘œμš΄ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. Vision-OPDλŠ” μ΄λ―Έμ§€μ˜ νŠΉμ • 뢀뢄을 μ€‘μ‹¬μœΌλ‘œ ν•™μŠ΅λœ λͺ¨λΈμ˜ λŠ₯λ ₯을 전체 이미지에 λŒ€ν•œ μ΄ν•΄λ‘œ μ „μ΄μ‹œν‚€λŠ” 온-ν΄λ¦¬μ‹œ 자기 증λ₯˜ 방식을 μ‚¬μš©ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 μ™ΈλΆ€ μ§€λ„λ‚˜ 도ꡬ 없이도 λͺ¨λΈμ΄ μ‹œκ°μ  ν™•λŒ€μ˜ 이점을 λ‚΄μž¬ν™”ν•˜λ„λ‘ ν•˜μ—¬ λ―Έμ„Έν•œ μ‹œκ°μ  이해 λŠ₯λ ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
MLLMs의 λ―Έμ„Έ μ‹œκ°μ  이해 λŠ₯λ ₯ 뢀쑱이 '지역적 인식'κ³Ό '전체적 인식' κ°„μ˜ κ²©μ°¨μ—μ„œ λΉ„λ‘―λœλ‹€λŠ” μ€‘μš”ν•œ 관찰을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μ™ΈλΆ€ μ§€λ„λ‚˜ 도ꡬ 없이도 MLLM의 자체 λŠ₯λ ₯을 ν™œμš©ν•˜μ—¬ μ„±λŠ₯을 ν–₯μƒμ‹œν‚€λŠ” 효과적인 자기 증λ₯˜ 방법둠을 μ œμ•ˆν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ λ²€μΉ˜λ§ˆν¬μ—μ„œ 기쑴의 λŒ€κ·œλͺ¨ λͺ¨λΈλ“€λ³΄λ‹€ 경쟁λ ₯ μžˆκ±°λ‚˜ μš°μˆ˜ν•œ μ„±λŠ₯을 λ‹¬μ„±ν•˜λ©° λ―Έμ„Έ μ‹œκ°μ  이해 λŠ₯λ ₯을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” νŠΉμ • 데이터셋 및 MLLM μ•„ν‚€ν…μ²˜μ— λŒ€ν•œ κ²°κ³Όλ₯Ό μ œμ‹œν•˜λ©°, λ‹€λ₯Έ μœ ν˜•μ˜ MLLMμ΄λ‚˜ λ‹€μ–‘ν•œ 데이터셋에 λŒ€ν•œ μΌλ°˜ν™” κ°€λŠ₯성에 λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘