Cet article souligne l'importance de générer des vidéos de démonstration homme-produit de haute qualité pour une promotion efficace des produits dans le e-commerce et le marketing digital. Les frameworks existants ne parviennent pas à préserver à la fois l'identité humaine et l'identité produit, ou manquent de compréhension des relations spatiales homme-produit, ce qui entraîne des représentations irréalistes et des interactions artificielles. Pour y remédier, cet article propose un framework basé sur un transformateur de diffusion (DiT). La méthode proposée injecte des informations de référence homme-produit par paires et exploite un mécanisme d'attention croisée masquée supplémentaire pour préserver simultanément l'identité humaine et les détails du produit, tels que les logos et les textures. À l'aide de modèles de maillage corporel 3D et de cadres de délimitation de produits, elle fournit un guidage précis des mouvements, alignant intuitivement les gestes de la main sur le placement du produit. De plus, elle intègre une sémantique au niveau des catégories grâce à un codage de texte structuré pour améliorer la cohérence 3D lors de petits changements de rotation entre les images. Entraînée sur un jeu de données hybride utilisant des stratégies d'augmentation de données poussées, notre approche surpasse les technologies de pointe en matière de préservation de l'intégrité des identités homme-produit et produit, et de génération de mouvements de démonstration réalistes.