Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

PromptDresser: Mejora de la calidad y controlabilidad de las pruebas virtuales mediante indicaciones textuales generativas y máscaras que reconocen las indicaciones

Created by
  • Haebom

Autor

Jeongho Kim, Hoiyeong Jin, Parque Sunghyun, Jaegul Choo

Describir

Este artículo aborda tareas de ajuste virtual basadas en texto, basándose en enfoques recientes de ajuste virtual que aprovechan potentes capacidades generativas mediante el ajuste fino de modelos de difusión de texto a imagen preentrenados. Específicamente, nos centramos en la tarea de ajuste virtual editable con texto, que modifica la ropa basándose en imágenes de ropa proporcionadas y edita el estilo de uso (p. ej., estilo de faja, ajuste) basándose en descripciones de texto. Para lograr esto, abordamos tres desafíos clave: (i) diseñar descripciones de texto enriquecidas para datos emparejados de persona-ropa para el entrenamiento del modelo; (ii) resolver conflictos donde la información textual sobre la ropa existente de la persona interfiere con la generación de nueva ropa; y (iii) ajustar adaptativamente las máscaras de pintura basadas en descripciones de texto para garantizar áreas de edición apropiadas, preservando al mismo tiempo la apariencia original de la persona, que no está relacionada con la nueva ropa. Para abordar estos desafíos, proponemos PromptDresser, un modelo de ajuste virtual editable con texto que aprovecha el soporte de modelos multimodales a gran escala (LMM) para permitir manipulaciones versátiles y de alta calidad basadas en indicaciones de texto. PromptDresser utiliza LMM mediante aprendizaje en contexto para generar descripciones textuales detalladas de imágenes de personas y prendas, incluyendo información detallada y atributos de edición, con mínima intervención humana. Además, la máscara de retoque se ajusta automáticamente según las indicaciones de texto para garantizar la seguridad del área de edición. Los resultados experimentales demuestran que PromptDresser supera a los métodos existentes, demostrando un excelente control basado en texto y una manipulación diversa de las prendas.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo modelo de ajuste virtual que permite ajustar el estilo y el ajuste de la ropa en función de imágenes de prendas mediante indicaciones de texto.
Permite una manipulación de prendas diversa y de alta calidad utilizando modelos multimodales a gran escala (LMM).
Genere automáticamente descripciones de texto enriquecidas con un mínimo esfuerzo humano a través del aprendizaje en contexto.
Mejore la calidad de la imagen transmitiendo de manera eficaz los detalles de la ropa que son difíciles de capturar solo con imágenes.
Muestra un mejor rendimiento que los métodos existentes.
Limitations:
La posibilidad de que la evaluación del desempeño del modelo propuesto pueda limitarse a un conjunto de datos específico.
Se necesitan más investigaciones para determinar la generalización entre diferentes tipos de ropa y tipos de cuerpo.
Posibilidad de errores debido a ambigüedad o mala interpretación de las indicaciones del texto.
Debido a que depende en gran medida de LMM, su rendimiento puede verse afectado.
👍