Cet article aborde la conversion d'articles de recherche en résumés vidéo structurés. Nous soulignons les limites des modèles de génération vidéo actuels, qui souffrent de fenêtres contextuelles limitées, de contraintes de durée vidéo fixe, d'une diversité stylistique limitée et d'une incapacité à représenter les connaissances spécifiques à un domaine. Pour pallier ces limites, nous présentons « Preacher », le premier système d'agents de conversion d'articles en vidéo. Preacher décompose, résume et reconstruit les articles selon une approche descendante, combinant différents segments vidéo pour générer des résumés vidéo cohérents. Nous définissons des scènes clés pour aligner les représentations intermodales et introduisons la chaîne de pensée progressive (P-CoT) pour une planification itérative fine. Preacher génère avec succès des résumés vidéo de haute qualité dans cinq domaines de recherche, démontrant une expertise qui surpasse les modèles de génération vidéo existants.