Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Prédicateur : Système agentique papier-vidéo

Created by
  • Haebom

Auteur

Jingwei Liu, Ling Yang, Hao Luo, Fan Wang, Hongyan Li, Mengdi Wang

Contour

Cet article aborde la conversion d'articles de recherche en résumés vidéo structurés. Nous soulignons les limites des modèles de génération vidéo actuels, qui souffrent de fenêtres contextuelles limitées, de contraintes de durée vidéo fixe, d'une diversité stylistique limitée et d'une incapacité à représenter les connaissances spécifiques à un domaine. Pour pallier ces limites, nous présentons « Preacher », le premier système d'agents de conversion d'articles en vidéo. Preacher décompose, résume et reconstruit les articles selon une approche descendante, combinant différents segments vidéo pour générer des résumés vidéo cohérents. Nous définissons des scènes clés pour aligner les représentations intermodales et introduisons la chaîne de pensée progressive (P-CoT) pour une planification itérative fine. Preacher génère avec succès des résumés vidéo de haute qualité dans cinq domaines de recherche, démontrant une expertise qui surpasse les modèles de génération vidéo existants.

Takeaways, Limitations

Takeaways:
Surmonter les limites des modèles existants en présentant Preacher, le premier système d'agent papier-vidéo.
Génération de résumés vidéo de haute qualité à l'aide d'approches descendantes et de P-CoT.
Des performances prouvées grâce à des applications réussies dans divers domaines de recherche.
La reproductibilité et des recherches plus poussées sont possibles grâce au code ouvert.
Limitations:
Les performances de généralisation dans des domaines autres que les cinq domaines de recherche présentés dans l’article nécessitent une vérification supplémentaire.
Une analyse plus approfondie est nécessaire sur l’efficacité et l’évolutivité du P-CoT.
L’évaluation qualitative de la production vidéo comporte un aspect subjectif.
👍