# SketchVLM: Vision language models can annotate images to explain thoughts and guide users

### 저자

Brandon Collins, Logan Bolton, Hung Huy Nguyen, Mohammad Reza Taesiri, Trung Bui, Anh Totti Nguyen

### 💡 개요

본 논문은 이미지에 대한 질문에 텍스트 응답만 생성하는 기존의 Vision-Language Model(VLM)의 한계를 극복하기 위해, VLM이 이미지에 대한 설명과 추론 과정을 시각적으로 표현하도록 돕는 SketchVLM 프레임워크를 제안합니다. SketchVLM은 별도의 학습 없이 기존 VLM에 적용 가능하며, 편집 가능한 SVG 오버레이를 생성하여 VLM의 답변을 시각적으로 보강합니다. 이를 통해 시각적 추론 및 드로잉 작업에서 기존 방식 대비 정확도와 주석 품질을 크게 향상시켰습니다.

### 🔑 시사점 및 한계

- VLM이 텍스트 답변 외에 시각적 단서(레이블, 선, 도형 등)를 생성함으로써 사용자의 이해도를 높이고 모델의 추론 과정을 투명하게 만들 수 있습니다.

- 별도의 모델 재학습 없이 기존 VLM에 쉽게 적용할 수 있는 모델 불가지론적(model-agnostic) 프레임워크입니다.

- 이미지 기반 시각 추론 및 드로잉 작업에서 높은 성능 향상을 보여주었으며, 향후 인간-AI 협업을 위한 기반을 마련할 수 있습니다.

- 현재는 생성된 SVG 오버레이의 복잡성이나 창의성에 대한 제한이 있을 수 있으며, 더 복잡하고 정교한 시각적 설명 생성에 대한 연구가 필요합니다.

---

[PDF 보기](https://arxiv.org/pdf/2604.22875)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).