Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Interact-Custom : Génération d'images d'interaction homme-objet personnalisées

Created by
  • Haebom

Auteur

Zhu Xu, Zhaowen Wang, Yuxin Peng, Yang Liu

Contour

Cet article se concentre sur la génération d'images synthétiques et personnalisées, combinant plusieurs concepts. Les recherches existantes se sont principalement concentrées sur la préservation de l'apparence des objets cibles, négligeant le contrôle fin des interactions entre eux. Cet article propose un défi appelé « Génération d'images d'interaction homme-objet personnalisée » (CHOI), centré sur les scénarios d'interaction homme-objet. CHOI nécessite à la fois la préservation de l'identité des humains et des objets cibles et le contrôle de la sémantique des interactions entre eux. Les principaux défis de CHOI sont : (1) la préservation simultanée de l'identité et le contrôle des interactions nécessitent la décomposition des humains et des objets en caractéristiques d'identité autonomes et en caractéristiques d'interaction basées sur les poses. Cependant, les jeux de données d'images HOI existants ne fournissent pas d'échantillons idéaux pour l'apprentissage de cette décomposition ; et (2) des configurations spatiales inappropriées entre humains et objets peuvent entraîner un manque de sémantique d'interaction souhaitée. Pour résoudre ce problème, nous concevons un modèle en deux étapes, Interact-Custom, en traitant un jeu de données à grande échelle contenant des échantillons de paires homme-objet identiques avec des poses d'interaction différentes. Interact-Custom modélise d'abord explicitement la configuration spatiale en générant un masque de premier plan illustrant le comportement d'interaction. Il génère ensuite des cibles humaines et des objets qui interagissent tout en préservant leurs caractéristiques identitaires, guidées par ce masque. Interact-Custom propose également une fonctionnalité optionnelle permettant de spécifier l'union de l'image d'arrière-plan et des emplacements cible humain-objet, offrant ainsi un haut niveau de contrôle du contenu. Des expériences approfondies sur les métriques personnalisées pour la tâche CHOI démontrent l'efficacité de l'approche proposée.

Takeaways, Limitations

Takeaways:
Nous présentons CHOI, un nouveau défi dans le domaine de la génération d'images d'interaction homme-objet, et proposons Interact-Custom, un modèle efficace pour cela.
Développement d’une technologie permettant simultanément la préservation de l’identité et le contrôle des interactions entre les humains et les objets.
Offre aux utilisateurs un contrôle élevé du contenu.
Présentation d’une stratégie d’apprentissage efficace utilisant des ensembles de données à grande échelle.
Limitations:
L’évaluation des performances du modèle proposé peut dépendre de mesures spécifiques.
Les performances de généralisation pour différents types d’interactions homme-objet nécessitent une validation supplémentaire.
Nous avons construit un nouvel ensemble de données pour surmonter les limites de l'ensemble de données d'images HOI existant, mais il peut y avoir des limites dans l'échelle et la diversité de l'ensemble de données.
Peut avoir une capacité limitée à gérer des scénarios d’interaction complexes et divers.
👍