본 논문은 러프한 손 스케치를 정밀하고 구성적인 다이어그램으로 변환하는 스케치-투-다이어그램 생성에 대해 연구합니다. 특히, 이미지 생성 모델이 가진 공간적 정밀도, 정렬, 기호 구조에 대한 어려움을 해결하기 위해, Vision-Language Model (VLM)과 Large Language Models (LLMs)을 결합한 훈련 없는 agentic 시스템인 "See it. Say it. Sorted."를 제안합니다. 이 시스템은 반복적인 루프를 통해 작동하며, Critic VLM이 질적, 관계적 편집을 제안하고, 여러 LLM이 다양한 전략으로 SVG 업데이트를 생성하며, Judge VLM이 최상의 후보를 선택하여 SVG 프로그램을 생성합니다. 이 방식은 질적 추론을 우선시하고, 전역 제약 조건을 보존하며, 인간 개입 수정을 지원합니다. 논문에서는 공개된 논문의 10개 플로우차트 스케치를 기반으로 실험하여, 제안된 방법이 GPT-5 및 Gemini-2.5-Pro보다 레이아웃과 구조를 더 충실하게 재구성하고, 원하는 텍스트 없이 구성 요소를 정확하게 생성함을 입증했습니다. 또한, 결과물이 프로그램적 SVG이므로 API를 통해 프레젠테이션 도구로 확장 가능하며, 개선된 프롬프트와 작업별 도구를 통해 특화될 수 있습니다.