Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

LoRA.rar: Aprendiendo a fusionar LoRAs mediante hiperredes para la generación de imágenes condicionadas según el estilo del sujeto

Created by
  • Haebom

Autor

Donald Shenaj, Ondrej Bohdal, Mete Ozay, Pietro Zanuttigh, Umberto Michieli

Describir

Este artículo analiza el desarrollo de un modelo de generación de imágenes de vanguardia que permite la generación personalizada de imágenes con contenido y estilo definidos por el usuario. Investigaciones previas lograron la personalización mediante la fusión de adaptadores de bajo rango (LoRA) mediante métodos de optimización, pero este enfoque es computacionalmente costoso e inadecuado para su uso en tiempo real en dispositivos con recursos limitados, como los teléfonos inteligentes. Para abordar este problema, este artículo propone un método LoRA$.$rar que mejora la calidad de la imagen a la vez que acelera el proceso de fusión en más de 4000 veces. Mediante el preentrenamiento de una hiperred con diversos pares LoRA de estilo de contenido, aprendemos una estrategia de fusión eficiente que se generaliza a nuevos pares de estilo de contenido, lo que permite una personalización rápida y de alta calidad. Además, identificamos las limitaciones de las métricas existentes para la evaluación de la calidad del estilo de contenido y proponemos un nuevo protocolo que utiliza un modelo de lenguaje multimodal a gran escala (MLLM) para una evaluación más precisa. Las evaluaciones humanas y de MLLM demuestran que nuestro método supera el estado del arte tanto en fidelidad de contenido como de estilo.

Takeaways, Limitations

Takeaways:
El método LoRA$.$rar permite la generación de imágenes personalizadas más de 4000 veces más rápido que los métodos de fusión LoRA basados en optimización existentes.
Presentamos una estrategia de fusión de LoRA eficiente que se puede generalizar a varias combinaciones de estilos de contenido.
Proponemos un nuevo protocolo de evaluación de la calidad del estilo de contenido que utiliza MLLM.
Mejore la calidad de la imagen y la velocidad de creación simultáneamente.
Limitations:
Se necesitan más investigaciones para determinar la generalidad y objetividad del protocolo de evaluación basado en MLLM propuesto.
El rendimiento del método LoRA$.$rar puede depender del rendimiento de la hiperred entrenada previamente.
Se necesita una validación adicional para garantizar la compatibilidad con varios modelos de generación de imágenes.
👍