Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Prédicateur : Système agentique papier-vidéo

Created by
  • Haebom

Auteur

Jingwei Liu, Ling Yang, Hao Luo, Fan Wang, Hongyan Li, Mengdi Wang

Contour

Cet article se concentre sur la conversion d'articles de recherche en résumés vidéo structurés. Nous constatons que les modèles de génération vidéo de pointe existants présentent des limites, notamment une fenêtre contextuelle restreinte, des contraintes de durée vidéo fixes, une diversité stylistique limitée et une incapacité à représenter des connaissances spécifiques à un domaine. Pour pallier ces limites, nous proposons « Preacher », le premier système d'agents de conversion d'articles en vidéo. Preacher décompose, résume et reconstruit les articles selon une approche descendante, combinant différents segments vidéo pour générer des résumés cohérents. Nous définissons des scènes clés pour aligner les représentations intermodales et introduisons la chaîne de pensée progressive (P-CoT) pour une planification itérative fine. Preacher génère avec succès des résumés vidéo de haute qualité dans cinq domaines de recherche, démontrant une expertise qui surpasse les modèles de génération vidéo existants. Le code sera disponible sur GitHub.

Takeaways, Limitations

Takeaways:
Proposition pour Preacher, le premier système d'agent papier-vidéo.
Surmonter les limites des modèles existants, telles que la fenêtre de contexte limitée, la durée fixe de la vidéo, la diversité de style limitée et la difficulté de représenter les connaissances spécifiques au domaine.
Une stratégie efficace de génération de vidéos utilisant l’approche descendante et P-CoT est présentée.
Générer avec succès des résumés vidéo de haute qualité dans divers domaines de recherche.
Suggérant la possibilité d’élargir la recherche grâce à la divulgation de code source ouvert.
Limitations:
Manque de description détaillée de l’évaluation des performances du modèle Preacher.
Une validation supplémentaire des performances de généralisation dans divers domaines de recherche est nécessaire.
Absence de description détaillée du mécanisme d’action spécifique du P-CoT.
Une évaluation des performances pour la génération de vidéos à long terme est nécessaire.
👍