본 논문은 슬라이드 발표 자료 및 포스터와 같은 멀티미디어 문서를 정적 래스터 형식으로 배포하여 편집 및 사용자 지정을 제한하는 문제를 해결하고자 한다. 이를 위해 비전-언어 모델(VLMs)을 사용하여 래스터 이미지를 편집 가능한 SVG(Scalable Vector Graphic) 표현으로 변환하는 새로운 프레임워크인 SliDer를 제안한다. SliDer는 래스터 입력에서 개별 이미지 및 텍스트 요소의 속성을 감지하고 추출하여 일관된 SVG 형식으로 구성하며, 인간 디자인과 유사하게 추론 과정에서 예측을 반복적으로 개선하여 원래 래스터를 충실하게 재구성하는 SVG 코드를 생성한다. 또한, 실제 과학 발표 자료에서 수집된 래스터-SVG 쌍으로 구성된 Slide2SVG 데이터셋을 도입하여 이 분야의 추가 연구를 지원한다. SliDer는 재구성 LPIPS 0.069를 달성했으며, 가장 강력한 제로샷 VLM 기반 모델에 비해 인간 평가자에게 82.9%의 선호도를 받았다.