Este artículo analiza el desarrollo de un modelo de generación de imágenes de vanguardia que permite la generación personalizada de imágenes con contenido y estilo definidos por el usuario. Investigaciones previas lograron la personalización mediante la fusión de adaptadores de bajo rango (LoRA) mediante métodos de optimización, pero este enfoque es computacionalmente costoso e inadecuado para su uso en tiempo real en dispositivos con recursos limitados, como los teléfonos inteligentes. Para abordar este problema, este artículo propone un método LoRA$.$rar que mejora la calidad de la imagen a la vez que acelera el proceso de fusión en más de 4000 veces. Mediante el preentrenamiento de una hiperred con diversos pares LoRA de estilo de contenido, aprendemos una estrategia de fusión eficiente que se generaliza a nuevos pares de estilo de contenido, lo que permite una personalización rápida y de alta calidad. Además, identificamos las limitaciones de las métricas existentes para la evaluación de la calidad del estilo de contenido y proponemos un nuevo protocolo que utiliza un modelo de lenguaje multimodal a gran escala (MLLM) para una evaluación más precisa. Las evaluaciones humanas y de MLLM demuestran que nuestro método supera el estado del arte tanto en fidelidad de contenido como de estilo.