Cet article souligne que, malgré les progrès significatifs réalisés en génération d'images grâce aux modèles texte-image à grande échelle, notamment les modèles basés sur la diffusion, il est difficile de générer des détails réalistes tels que les visages et les mains. Pour résoudre ce problème, nous proposons FairHuman, une méthode de réglage fin multi-objectifs conçue pour améliorer sensiblement la qualité de la génération globale et locale. FairHuman utilise un objectif global et deux objectifs locaux pour les mains et les visages, et élabore une stratégie optimale de mise à jour des paramètres basée sur le critère du délai potentiel minimal (DPM) afin d'obtenir une optimisation équitable pour les problèmes multi-objectifs. Cela améliore significativement la génération de détails locaux complexes tout en maintenant la qualité globale. Grâce à des expériences approfondies, nous démontrons l'efficacité de notre méthode pour améliorer les performances de génération d'images humaines dans divers scénarios.