Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Interact-Custom: Generación personalizada de imágenes de interacción con objetos humanos

Created by
  • Haebom

Autor

Zhu Xu, Zhaowen Wang, Yuxin Peng, Yang Liu

Describir

Este artículo se centra en la generación de imágenes sintéticas y personalizadas, que combina múltiples conceptos para generar imágenes. La investigación existente se ha centrado principalmente en preservar la apariencia de los objetos objetivo, pero ha pasado por alto el control detallado de las interacciones entre ellos. Este artículo propone un reto denominado "Generación de Imágenes de Interacción Humano-Objeto Personalizadas" (CHOI), centrado en escenarios de interacción humano-objeto. CHOI requiere tanto la preservación de la identidad de los humanos y objetos objetivo como el control de la semántica de interacción entre ellos. Los principales retos de CHOI son: (1) la preservación de la identidad y el control de la interacción simultáneos requieren la descomposición de humanos y objetos en características de identidad autónomas y características de interacción basadas en la pose. Sin embargo, los conjuntos de datos de imágenes HOI existentes no proporcionan muestras ideales para el aprendizaje de esta descomposición de características; y (2) las configuraciones espaciales inadecuadas entre humanos y objetos pueden resultar en la falta de la semántica de interacción deseada. Para abordar esto, diseñamos un modelo de dos etapas, Interact-Custom, mediante el procesamiento de un conjunto de datos a gran escala que contiene muestras de pares idénticos de humano-objeto con diferentes poses de interacción. Interact-Custom primero modela explícitamente la configuración espacial generando una máscara de primer plano que representa el comportamiento de interacción. A continuación, genera humanos y objetos objetivo que interactúan conservando sus características de identidad, guiados por esta máscara. Interact-Custom también ofrece una función opcional para especificar la unión de la imagen de fondo y las ubicaciones de los objetos objetivo, lo que proporciona un alto nivel de control del contenido. Amplios experimentos con métricas personalizadas para la tarea CHOI demuestran la eficacia del enfoque propuesto.

Takeaways, Limitations

Takeaways:
Presentamos CHOI, un nuevo desafío en el campo de la generación de imágenes de interacción humano-objeto, y proponemos Interact-Custom, un modelo efectivo para ello.
Desarrollo de tecnología que logre simultáneamente la preservación de la identidad y el control de la interacción de humanos y objetos.
Proporciona a los usuarios un alto control del contenido.
Presentando una estrategia de aprendizaje efectiva utilizando conjuntos de datos a gran escala.
Limitations:
La evaluación del desempeño del modelo propuesto puede depender de métricas específicas.
El rendimiento de generalización para varios tipos de interacciones entre humanos y objetos requiere una validación adicional.
Creamos un nuevo conjunto de datos para superar las limitaciones del conjunto de datos de imágenes HOI existente, pero puede haber limitaciones en la escala y la diversidad del conjunto de datos.
Puede tener una capacidad limitada para manejar escenarios de interacción complejos y diversos.
👍