본 논문은 프레젠테이션 슬라이드 애니메이션 생성을 위한 최초의 공개 데이터셋을 발표하고, 이를 활용하여 Vision-Language Model(VLM)의 성능을 향상시킨 연구 결과를 제시합니다. 12,000개의 자연어 설명, 애니메이션 JSON 파일, 렌더링된 비디오로 구성된 데이터셋을 이용하여 Qwen-2.5-VL-7B 모델을 Low-Rank Adaptation(LoRA) 기법으로 미세 조정했습니다. 실험 결과, BLEU-4, ROUGE-L, SPICE, 그리고 새롭게 제안된 CODA(Coverage-Order-Detail Assessment) 지표에서 GPT-4.1과 Gemini-2.5-Pro보다 성능 향상을 보였으며, 특히 수동으로 구성된 테스트 세트에서는 BLEU-4가 약 60%, ROUGE-L이 약 30% 향상되었습니다. 이는 LoRA를 통해 VLM이 신뢰할 수 있는 시간적 추론과 합성 데이터를 넘어선 일반화 능력을 갖추도록 하는 것을 보여줍니다. 제시된 데이터셋, LoRA 기반 모델, 그리고 CODA 지표는 향후 VLM 기반 동적 슬라이드 생성 연구를 위한 벤치마크 및 기반을 제공합니다.