Este artículo se centra en la conversión de artículos de investigación en resúmenes de vídeo estructurados. Observamos que los modelos de generación de vídeo de vanguardia presentan limitaciones, como una ventana de contexto limitada, restricciones fijas de duración de vídeo, diversidad de estilos limitada y la incapacidad de representar el conocimiento específico del dominio. Para abordar estas limitaciones, proponemos "Preacher", el primer sistema de agente de conversión de artículos de investigación en vídeo. Preacher descompone, resume y reconstruye artículos mediante un enfoque descendente, combinando diversos segmentos de vídeo para generar resúmenes coherentes. Definimos escenas clave para alinear las representaciones intermodales e introducimos la Cadena de Pensamiento Progresiva (P-CoT) para una planificación iterativa detallada. Preacher genera con éxito resúmenes de vídeo de alta calidad en cinco áreas de investigación, demostrando una experiencia que supera a los modelos de generación de vídeo existentes. El código estará disponible en GitHub.