[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

NoHumansRequired: Edición de imágenes autónoma de alta calidad y minería de tripletes

Created by
  • Haebom

Autor

Maksim Kuprashevich, Grigorii Alekseenko, Irina Tolstykh, Georgii Fedorov, Bulat Suleimanov, Vladimir Dokholyan, Aleksandr Gordeev

Describir

En este artículo, presentamos una metodología para la generación automática de un conjunto de datos de edición de imágenes a gran escala y de alta calidad, con el fin de abordar las limitaciones de los asistentes de edición de imágenes basados en modelos generativos que realizan la edición mediante comandos de lenguaje natural. Si bien los enfoques existentes tienen dificultades para obtener ejemplos de edición precisos a nivel de píxel, nuestra metodología genera automáticamente datos de tripletes de alta calidad (imágenes originales, comandos e imágenes editadas) mediante la evaluación directa de la conformidad con los comandos y los factores estéticos mediante modelos generativos disponibles públicamente y el validador Gemini. Aumentamos el tamaño del conjunto de datos 2,2 veces mediante técnicas de inversión y bootstrap composicional, y presentamos el conjunto de datos NHR-Edit, compuesto por 358 000 tripletes de alta calidad y un modelo Bagel-NHR-Edit optimizado basado en él. Las evaluaciones a gran escala entre conjuntos de datos muestran que el conjunto de datos y el modelo propuestos superan a otros conjuntos de datos y modelos disponibles públicamente.

Takeaways, Limitations

Takeaways:
Presentamos un proceso para generar automáticamente conjuntos de datos de edición de imágenes de alta calidad, resolviendo el desafío de entrenar modelos de edición de imágenes a gran escala.
Mejorar la accesibilidad a la investigación mediante la publicación del conjunto de datos NHR-Edit que consta de 358.000 tripletes de alta calidad y un modelo Bagel perfeccionado.
Presentamos un enfoque novedoso para evaluar directamente el cumplimiento de los comandos y los factores estéticos aprovechando el validador Gemini.
Presentamos una técnica para aumentar eficazmente el tamaño del conjunto de datos a través de la inversión y el bootstrap compositivo.
Validación de la superioridad del rendimiento a través de la evaluación de conjuntos de datos cruzados a gran escala.
Limitations:
Se requiere un análisis detallado y una verificación del rendimiento del validador Gemini.
Es necesario evaluar el rendimiento de generalización para varios tipos de comandos de edición de imágenes.
Se necesita un análisis más profundo del coste computacional y la eficiencia del pipeline.
Es necesario analizar el sesgo del conjunto de datos generado y encontrar soluciones.
👍