Sign In

SketchVLM: Vision language models can annotate images to explain thoughts and guide users

Created by
  • Haebom
Category
Empty

μ €μž

Brandon Collins, Logan Bolton, Hung Huy Nguyen, Mohammad Reza Taesiri, Trung Bui, Anh Totti Nguyen

πŸ’‘ κ°œμš”

λ³Έ 논문은 이미지에 λŒ€ν•œ μ§ˆλ¬Έμ— ν…μŠ€νŠΈ μ‘λ‹΅λ§Œ μƒμ„±ν•˜λŠ” 기쑴의 Vision-Language Model(VLM)의 ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κΈ° μœ„ν•΄, VLM이 이미지에 λŒ€ν•œ μ„€λͺ…κ³Ό μΆ”λ‘  과정을 μ‹œκ°μ μœΌλ‘œ ν‘œν˜„ν•˜λ„λ‘ λ•λŠ” SketchVLM ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. SketchVLM은 λ³„λ„μ˜ ν•™μŠ΅ 없이 κΈ°μ‘΄ VLM에 적용 κ°€λŠ₯ν•˜λ©°, νŽΈμ§‘ κ°€λŠ₯ν•œ SVG μ˜€λ²„λ ˆμ΄λ₯Ό μƒμ„±ν•˜μ—¬ VLM의 닡변을 μ‹œκ°μ μœΌλ‘œ λ³΄κ°•ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 μ‹œκ°μ  μΆ”λ‘  및 λ“œλ‘œμž‰ μž‘μ—…μ—μ„œ κΈ°μ‘΄ 방식 λŒ€λΉ„ 정확도와 주석 ν’ˆμ§ˆμ„ 크게 ν–₯μƒμ‹œμΌ°μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
VLM이 ν…μŠ€νŠΈ λ‹΅λ³€ 외에 μ‹œκ°μ  λ‹¨μ„œ(λ ˆμ΄λΈ”, μ„ , λ„ν˜• λ“±)λ₯Ό μƒμ„±ν•¨μœΌλ‘œμ¨ μ‚¬μš©μžμ˜ 이해도λ₯Ό 높이고 λͺ¨λΈμ˜ μΆ”λ‘  과정을 투λͺ…ν•˜κ²Œ λ§Œλ“€ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λ³„λ„μ˜ λͺ¨λΈ μž¬ν•™μŠ΅ 없이 κΈ°μ‘΄ VLM에 μ‰½κ²Œ μ μš©ν•  수 μžˆλŠ” λͺ¨λΈ λΆˆκ°€μ§€λ‘ μ (model-agnostic) ν”„λ ˆμž„μ›Œν¬μž…λ‹ˆλ‹€.
β€’
이미지 기반 μ‹œκ° μΆ”λ‘  및 λ“œλ‘œμž‰ μž‘μ—…μ—μ„œ 높은 μ„±λŠ₯ ν–₯상을 λ³΄μ—¬μ£Όμ—ˆμœΌλ©°, ν–₯ν›„ 인간-AI ν˜‘μ—…μ„ μœ„ν•œ κΈ°λ°˜μ„ λ§ˆλ ¨ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
ν˜„μž¬λŠ” μƒμ„±λœ SVG μ˜€λ²„λ ˆμ΄μ˜ λ³΅μž‘μ„±μ΄λ‚˜ μ°½μ˜μ„±μ— λŒ€ν•œ μ œν•œμ΄ μžˆμ„ 수 있으며, 더 λ³΅μž‘ν•˜κ³  μ •κ΅ν•œ μ‹œκ°μ  μ„€λͺ… 생성에 λŒ€ν•œ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘