Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Semantic Document Derendering: SVG Reconstruction via Vision-Language Modeling

Created by
  • Haebom
Category
Empty

저자

Adam Hazimeh, Ke Wang, Mark Collier, Gilles Baechler, Efi Kokiopoulou, Pascal Frossard

개요

본 논문은 슬라이드 발표 자료 및 포스터와 같은 멀티미디어 문서를 정적 래스터 형식으로 배포하여 편집 및 사용자 지정을 제한하는 문제를 해결하고자 한다. 이를 위해 비전-언어 모델(VLMs)을 사용하여 래스터 이미지를 편집 가능한 SVG(Scalable Vector Graphic) 표현으로 변환하는 새로운 프레임워크인 SliDer를 제안한다. SliDer는 래스터 입력에서 개별 이미지 및 텍스트 요소의 속성을 감지하고 추출하여 일관된 SVG 형식으로 구성하며, 인간 디자인과 유사하게 추론 과정에서 예측을 반복적으로 개선하여 원래 래스터를 충실하게 재구성하는 SVG 코드를 생성한다. 또한, 실제 과학 발표 자료에서 수집된 래스터-SVG 쌍으로 구성된 Slide2SVG 데이터셋을 도입하여 이 분야의 추가 연구를 지원한다. SliDer는 재구성 LPIPS 0.069를 달성했으며, 가장 강력한 제로샷 VLM 기반 모델에 비해 인간 평가자에게 82.9%의 선호도를 받았다.

시사점, 한계점

시사점:
Vision-Language Models (VLMs)을 활용하여 복잡한 문서의 의미론적 구조를 보존하면서 래스터 이미지를 SVG 형식으로 효과적으로 변환하는 새로운 프레임워크(SliDer) 제시
실제 슬라이드 자료를 기반으로 한 Slide2SVG 데이터셋 구축을 통해 해당 분야 연구를 촉진
기존 방법론 대비 우수한 재구성 성능 및 인간 평가에서의 높은 선호도 입증
한계점:
논문에서 구체적인 한계점 언급되지 않음 (추후 연구에서 보완 필요)
👍