Este artículo se centra en la generación de imágenes sintéticas y personalizadas, que combina múltiples conceptos para generar imágenes. La investigación existente se ha centrado principalmente en preservar la apariencia de los objetos objetivo, pero ha pasado por alto el control detallado de las interacciones entre ellos. Este artículo propone un reto denominado "Generación de Imágenes de Interacción Humano-Objeto Personalizadas" (CHOI), centrado en escenarios de interacción humano-objeto. CHOI requiere tanto la preservación de la identidad de los humanos y objetos objetivo como el control de la semántica de interacción entre ellos. Los principales retos de CHOI son: (1) la preservación de la identidad y el control de la interacción simultáneos requieren la descomposición de humanos y objetos en características de identidad autónomas y características de interacción basadas en la pose. Sin embargo, los conjuntos de datos de imágenes HOI existentes no proporcionan muestras ideales para el aprendizaje de esta descomposición de características; y (2) las configuraciones espaciales inadecuadas entre humanos y objetos pueden resultar en la falta de la semántica de interacción deseada. Para abordar esto, diseñamos un modelo de dos etapas, Interact-Custom, mediante el procesamiento de un conjunto de datos a gran escala que contiene muestras de pares idénticos de humano-objeto con diferentes poses de interacción. Interact-Custom primero modela explícitamente la configuración espacial generando una máscara de primer plano que representa el comportamiento de interacción. A continuación, genera humanos y objetos objetivo que interactúan conservando sus características de identidad, guiados por esta máscara. Interact-Custom también ofrece una función opcional para especificar la unión de la imagen de fondo y las ubicaciones de los objetos objetivo, lo que proporciona un alto nivel de control del contenido. Amplios experimentos con métricas personalizadas para la tarea CHOI demuestran la eficacia del enfoque propuesto.