Este artículo destaca la importancia de generar videos de demostración de alta calidad que combinen persona y producto para una promoción eficaz de productos en el comercio electrónico y el marketing digital. Los marcos de trabajo existentes presentan el problema de no mantener la identidad humana y del producto, o de carecer de una comprensión de las relaciones espaciales entre la persona y el producto, lo que resulta en representaciones poco realistas e interacciones poco naturales. Para abordar este problema, este artículo propone un marco de trabajo basado en el Transformador de Difusión (DiT). El método propuesto inyecta información de referencia de pares de persona y producto y aprovecha un mecanismo adicional de atención cruzada enmascarada para preservar simultáneamente la identidad humana y los detalles del producto, como logotipos y texturas. Mediante plantillas de malla corporal 3D y cuadros delimitadores de producto, proporciona una guía de movimiento precisa, alineando intuitivamente los gestos de las manos con la ubicación del producto. Además, incorpora semántica a nivel de categoría mediante codificación de texto estructurado para mejorar la consistencia 3D durante pequeños cambios de rotación entre fotogramas. Entrenado en un conjunto de datos híbridos mediante extensas estrategias de aumento de datos, nuestro enfoque supera a los métodos más avanzados en el mantenimiento de la integridad de la identidad humana y del producto, y en la generación de movimientos de demostración realistas.