Cet article présente l'évolution d'un modèle de génération d'images de pointe permettant la personnalisation d'images avec un contenu et un style définis par l'utilisateur. Des recherches antérieures ont permis la personnalisation en fusionnant des adaptateurs de bas rang (LoRA) à l'aide de méthodes d'optimisation. Cependant, cette approche est coûteuse en ressources informatiques et inadaptée à une utilisation en temps réel sur des appareils aux ressources limitées comme les smartphones. Pour résoudre ce problème, cet article propose une méthode LoRA$.$rar qui améliore la qualité de l'image tout en accélérant le processus de fusion de plus de 4 000 fois. En pré-entraînant un hyperréseau sur diverses paires LoRA contenu-style, nous apprenons une stratégie de fusion efficace qui se généralise à de nouvelles paires contenu-style, permettant une personnalisation rapide et de haute qualité. De plus, nous identifions les limites des mesures existantes d'évaluation de la qualité du contenu et proposons un nouveau protocole utilisant un modèle de langage multimodal à grande échelle (MLLM) pour une évaluation plus précise. Les évaluations MLLM et humaines démontrent que notre méthode surpasse les méthodes de pointe en termes de fidélité du contenu et du style.