본 논문은 연구 논문을 구조화된 비디오 요약으로 변환하는 'paper-to-video' 작업에 초점을 맞춥니다. 기존의 최첨단 비디오 생성 모델이 제한된 컨텍스트 창, 고정된 비디오 지속 시간 제약, 제한적인 스타일 다양성, 그리고 도메인 특정 지식을 나타낼 수 없는 능력 등의 한계를 가지고 있음을 지적하며, 이러한 한계를 해결하기 위해 최초의 paper-to-video 에이전트 시스템인 'Preacher'를 제안합니다. Preacher는 상위-하위 방식을 사용하여 논문을 분해, 요약, 재구성하고, 다양한 비디오 세그먼트를 결합하여 일관된 요약을 생성합니다. 교차 모달 표현을 정렬하기 위해 주요 장면을 정의하고, 세분화된 반복적 계획을 위한 Progressive Chain of Thought (P-CoT)를 도입합니다. Preacher는 다섯 가지 연구 분야에서 고품질 비디오 요약을 성공적으로 생성하여 기존 비디오 생성 모델을 능가하는 전문성을 보여줍니다. 코드는 GitHub에서 공개될 예정입니다.