Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Cut2Next : Génération du plan suivant via un réglage contextuel

작성자
  • Haebom

Auteur

Jingwen He, Hongbo Liu, Jiajun Li, Ziqi Huang, Yu Qiao, Wanli Ouyang, Ziwei Liu

Contour

Cet article souligne l'importance de la continuité cinématique et des schémas de montage dans la génération de plans multiples et présente Cut2Next, un nouveau framework qui surmonte les limites des méthodes existantes. Cut2Next génère le plan suivant grâce à une stratégie de multi-invites hiérarchique basée sur le Diffusion Transformer (DiT). Cette multi-invite hiérarchique utilise des invites relationnelles et individuelles pour spécifier le contexte général, le style de montage entre les plans, ainsi que le contenu et les propriétés cinématiques de chaque plan. Des innovations structurelles telles que l'injection de conditions contextuelles (CACI) et le masque d'attention hiérarchique (HAM) intègrent divers indices sans ajout de paramètres. Nous construisons un jeu de données RawCuts à grande échelle et un jeu de données CuratedCuts affiné, puis présentons CutBench pour évaluation. Les résultats expérimentaux démontrent que Cut2Next offre de bonnes performances en termes de cohérence visuelle et de fidélité textuelle. Plus précisément, des études utilisateurs ont confirmé une forte préférence pour le respect des schémas de montage prévus et la continuité cinématique, validant sa capacité à générer des plans suivants de haute qualité et cohérents sur le plan narratif.

Takeaways, Limitations

Takeaways:
Présentation de nouvelles possibilités de création multi-plans qui prennent en compte la continuité cinématographique et les modèles de montage.
Utilisation efficace du transformateur de diffusion et des stratégies de multi-invites hiérarchiques
Poser les bases de la recherche future en présentant des ensembles de données à grande échelle et des critères d’évaluation.
Assurer la fiabilité des évaluations subjectives de la qualité grâce à la recherche utilisateur.
Limitations:
Un examen plus approfondi de la taille et de la diversité de l’ensemble de données présenté est nécessaire.
Il est nécessaire de vérifier les performances de généralisation pour différents genres et styles de films.
Il faut tenir compte des coûts de calcul et des temps de traitement.
Des recherches supplémentaires sont nécessaires sur l’applicabilité de cette méthode dans des environnements de production cinématographique réels.
👍