Cet article se concentre sur la conversion d'articles de recherche en résumés vidéo structurés. Nous constatons que les modèles de génération vidéo de pointe existants présentent des limites, notamment une fenêtre contextuelle restreinte, des contraintes de durée vidéo fixes, une diversité stylistique limitée et une incapacité à représenter des connaissances spécifiques à un domaine. Pour pallier ces limites, nous proposons « Preacher », le premier système d'agents de conversion d'articles en vidéo. Preacher décompose, résume et reconstruit les articles selon une approche descendante, combinant différents segments vidéo pour générer des résumés cohérents. Nous définissons des scènes clés pour aligner les représentations intermodales et introduisons la chaîne de pensée progressive (P-CoT) pour une planification itérative fine. Preacher génère avec succès des résumés vidéo de haute qualité dans cinq domaines de recherche, démontrant une expertise qui surpasse les modèles de génération vidéo existants. Le code sera disponible sur GitHub.