Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

See it. Say it. Sorted: Agentic System for Compositional Diagram Generation

Created by
  • Haebom
Category
Empty

저자

Hantao Zhang, Jingyang Liu, Ed Li

개요

본 논문은 러프한 손 스케치를 정밀하고 구성적인 다이어그램으로 변환하는 스케치-투-다이어그램 생성에 대해 연구합니다. 특히, 이미지 생성 모델이 가진 공간적 정밀도, 정렬, 기호 구조에 대한 어려움을 해결하기 위해, Vision-Language Model (VLM)과 Large Language Models (LLMs)을 결합한 훈련 없는 agentic 시스템인 "See it. Say it. Sorted."를 제안합니다. 이 시스템은 반복적인 루프를 통해 작동하며, Critic VLM이 질적, 관계적 편집을 제안하고, 여러 LLM이 다양한 전략으로 SVG 업데이트를 생성하며, Judge VLM이 최상의 후보를 선택하여 SVG 프로그램을 생성합니다. 이 방식은 질적 추론을 우선시하고, 전역 제약 조건을 보존하며, 인간 개입 수정을 지원합니다. 논문에서는 공개된 논문의 10개 플로우차트 스케치를 기반으로 실험하여, 제안된 방법이 GPT-5 및 Gemini-2.5-Pro보다 레이아웃과 구조를 더 충실하게 재구성하고, 원하는 텍스트 없이 구성 요소를 정확하게 생성함을 입증했습니다. 또한, 결과물이 프로그램적 SVG이므로 API를 통해 프레젠테이션 도구로 확장 가능하며, 개선된 프롬프트와 작업별 도구를 통해 특화될 수 있습니다.

시사점, 한계점

시사점:
훈련 없는 agentic 시스템으로 스케치에서 다이어그램 생성을 가능하게 함.
기존 이미지 생성 모델의 한계를 극복하고, 공간적 정밀도, 정렬, 기호 구조를 효과적으로 처리.
GPT-5, Gemini-2.5-Pro와 같은 경쟁 모델보다 뛰어난 성능을 보임.
SVG 출력을 통해 편집 및 프레젠테이션 도구로의 확장성을 제공.
오픈 소스 코드베이스를 통해 접근성을 높임.
한계점:
논문에서 구체적인 한계점 언급은 없음.
👍