SPIE est une nouvelle méthodologie post-apprentissage sémantique et structurelle pour les modèles de diffusion d'édition d'images basés sur des instructions. Pour relever les principaux défis liés à l'alignement avec les invites utilisateur et à la cohérence avec les images d'entrée, nous présentons un cadre d'apprentissage par renforcement en ligne qui aligne les modèles de diffusion sur les préférences humaines sans nécessiter de grands ensembles de données ni d'annotations humaines approfondies. Cette méthodologie exploite les invites visuelles pour contrôler l'édition visuelle détaillée, effectuant des modifications précises et structurellement cohérentes, même dans des scènes complexes, tout en maintenant la fidélité dans les zones non liées à l'instruction, améliorant ainsi significativement l'alignement avec l'instruction et le réalisme. L'apprentissage ne nécessite que cinq images de référence illustrant des concepts spécifiques et, même après dix cycles d'apprentissage, permet d'effectuer des modifications sophistiquées dans des scènes complexes. Elle démontre également des applications potentielles en robotique, améliorant le réalisme visuel des environnements simulés et leur utilité comme proxy pour les environnements réels.