본 논문은 슬라이드 애니메이션 생성을 위한 최초의 공개 데이터셋을 발표하고, 이를 활용하여 비전-언어 모델(VLM)의 성능을 향상시킨 연구 결과를 제시합니다. 12,000개의 자연어 설명, 애니메이션 JSON 파일, 렌더링된 비디오로 구성된 데이터셋을 통해 Qwen-2.5-VL-7B 모델을 Low-Rank Adaptation(LoRA)으로 미세 조정하여, GPT-4.1 및 Gemini-2.5-Pro 모델보다 BLEU-4, ROUGE-L, SPICE, 그리고 새롭게 제안된 CODA 평가 지표에서 성능 향상을 달성했습니다. CODA 지표는 애니메이션의 동작 적용 범위, 시간 순서, 세부 사항 충실도를 평가합니다. LoRA 기법을 통해 신뢰할 수 있는 시간적 추론과 합성 데이터를 넘어서는 일반화 능력을 확보했음을 보여줍니다. 제공된 데이터셋, LoRA 기반 모델, 그리고 CODA 지표는 향후 VLM 기반 동적 슬라이드 생성 연구를 위한 엄격한 벤치마크와 기반을 제공합니다.