Cet article se concentre sur la génération d'images synthétiques et personnalisées, combinant plusieurs concepts. Les recherches existantes se sont principalement concentrées sur la préservation de l'apparence des objets cibles, négligeant le contrôle fin des interactions entre eux. Cet article propose un défi appelé « Génération d'images d'interaction homme-objet personnalisée » (CHOI), centré sur les scénarios d'interaction homme-objet. CHOI nécessite à la fois la préservation de l'identité des humains et des objets cibles et le contrôle de la sémantique des interactions entre eux. Les principaux défis de CHOI sont : (1) la préservation simultanée de l'identité et le contrôle des interactions nécessitent la décomposition des humains et des objets en caractéristiques d'identité autonomes et en caractéristiques d'interaction basées sur les poses. Cependant, les jeux de données d'images HOI existants ne fournissent pas d'échantillons idéaux pour l'apprentissage de cette décomposition ; et (2) des configurations spatiales inappropriées entre humains et objets peuvent entraîner un manque de sémantique d'interaction souhaitée. Pour résoudre ce problème, nous concevons un modèle en deux étapes, Interact-Custom, en traitant un jeu de données à grande échelle contenant des échantillons de paires homme-objet identiques avec des poses d'interaction différentes. Interact-Custom modélise d'abord explicitement la configuration spatiale en générant un masque de premier plan illustrant le comportement d'interaction. Il génère ensuite des cibles humaines et des objets qui interagissent tout en préservant leurs caractéristiques identitaires, guidées par ce masque. Interact-Custom propose également une fonctionnalité optionnelle permettant de spécifier l'union de l'image d'arrière-plan et des emplacements cible humain-objet, offrant ainsi un haut niveau de contrôle du contenu. Des expériences approfondies sur les métriques personnalisées pour la tâche CHOI démontrent l'efficacité de l'approche proposée.