Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

LoRA.rar : Apprendre à fusionner des LoRA via des hyperréseaux pour la génération d'images conditionnées par sujet

Created by
  • Haebom

Auteur

Donald Shenaj, Ondrej Bohdal, Mete Ozay, Pietro Zanuttigh, Umberto Michieli

Contour

Cet article présente l'évolution d'un modèle de génération d'images de pointe permettant la personnalisation d'images avec un contenu et un style définis par l'utilisateur. Des recherches antérieures ont permis la personnalisation en fusionnant des adaptateurs de bas rang (LoRA) à l'aide de méthodes d'optimisation. Cependant, cette approche est coûteuse en ressources informatiques et inadaptée à une utilisation en temps réel sur des appareils aux ressources limitées comme les smartphones. Pour résoudre ce problème, cet article propose une méthode LoRA$.$rar qui améliore la qualité de l'image tout en accélérant le processus de fusion de plus de 4 000 fois. En pré-entraînant un hyperréseau sur diverses paires LoRA contenu-style, nous apprenons une stratégie de fusion efficace qui se généralise à de nouvelles paires contenu-style, permettant une personnalisation rapide et de haute qualité. De plus, nous identifions les limites des mesures existantes d'évaluation de la qualité du contenu et proposons un nouveau protocole utilisant un modèle de langage multimodal à grande échelle (MLLM) pour une évaluation plus précise. Les évaluations MLLM et humaines démontrent que notre méthode surpasse les méthodes de pointe en termes de fidélité du contenu et du style.

Takeaways, Limitations

Takeaways:
La méthode LoRA$.$rar permet une génération d'images personnalisées plus de 4 000 fois plus rapide que les méthodes de fusion LoRA basées sur l'optimisation existantes.
Nous présentons une stratégie de fusion LoRA efficace qui est généralisable à diverses combinaisons de styles de contenu.
Nous proposons un nouveau protocole d’évaluation de la qualité du contenu utilisant MLLM.
Améliorez simultanément la qualité de l'image et la vitesse de création.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralité et l’objectivité du protocole d’évaluation proposé basé sur le MLLM.
Les performances de la méthode LoRA$.$rar peuvent dépendre des performances de l’hyperréseau pré-entraîné.
Une validation supplémentaire est nécessaire pour la compatibilité avec divers modèles de génération d’images.
👍