haebom
Sign In
SketchVLM: Vision language models can annotate images to explain thoughts and guide users
Created by
Haebom
Category
Empty
μ μ
Brandon Collins, Logan Bolton, Hung Huy Nguyen, Mohammad Reza Taesiri, Trung Bui, Anh Totti Nguyen
π‘ κ°μ
λ³Έ λ Όλ¬Έμ μ΄λ―Έμ§μ λν μ§λ¬Έμ ν μ€νΈ μλ΅λ§ μμ±νλ κΈ°μ‘΄μ Vision-Language Model(VLM)μ νκ³λ₯Ό 극볡νκΈ° μν΄, VLMμ΄ μ΄λ―Έμ§μ λν μ€λͺ κ³Ό μΆλ‘ κ³Όμ μ μκ°μ μΌλ‘ νννλλ‘ λλ SketchVLM νλ μμν¬λ₯Ό μ μν©λλ€. SketchVLMμ λ³λμ νμ΅ μμ΄ κΈ°μ‘΄ VLMμ μ μ© κ°λ₯νλ©°, νΈμ§ κ°λ₯ν SVG μ€λ²λ μ΄λ₯Ό μμ±νμ¬ VLMμ λ΅λ³μ μκ°μ μΌλ‘ 보κ°ν©λλ€. μ΄λ₯Ό ν΅ν΄ μκ°μ μΆλ‘ λ° λλ‘μ μμ μμ κΈ°μ‘΄ λ°©μ λλΉ μ νλμ μ£Όμ νμ§μ ν¬κ² ν₯μμμΌ°μ΅λλ€.
π μμ¬μ λ° νκ³
β’
VLMμ΄ ν μ€νΈ λ΅λ³ μΈμ μκ°μ λ¨μ(λ μ΄λΈ, μ , λν λ±)λ₯Ό μμ±ν¨μΌλ‘μ¨ μ¬μ©μμ μ΄ν΄λλ₯Ό λμ΄κ³ λͺ¨λΈμ μΆλ‘ κ³Όμ μ ν¬λͺ νκ² λ§λ€ μ μμ΅λλ€.
β’
λ³λμ λͺ¨λΈ μ¬νμ΅ μμ΄ κΈ°μ‘΄ VLMμ μ½κ² μ μ©ν μ μλ λͺ¨λΈ λΆκ°μ§λ‘ μ (model-agnostic) νλ μμν¬μ λλ€.
β’
μ΄λ―Έμ§ κΈ°λ° μκ° μΆλ‘ λ° λλ‘μ μμ μμ λμ μ±λ₯ ν₯μμ 보μ¬μ£ΌμμΌλ©°, ν₯ν μΈκ°-AI νμ μ μν κΈ°λ°μ λ§λ ¨ν μ μμ΅λλ€.
β’
νμ¬λ μμ±λ SVG μ€λ²λ μ΄μ 볡μ‘μ±μ΄λ μ°½μμ±μ λν μ νμ΄ μμ μ μμΌλ©°, λ 볡μ‘νκ³ μ κ΅ν μκ°μ μ€λͺ μμ±μ λν μ°κ΅¬κ° νμν©λλ€.
PDF 보기
Made with Slashpage