SPIEはinstruction-basedイメージ編集 diffusion modelのための新しいsemanticおよびstructural post-training方法論です。ユーザープロンプトとの整列と入力画像との一貫性という主な課題を解決するために、大規模なデータセットや広範な人のアノテーションなしで diffusion model を人の好みに合わせる online reinforcement learning framework を提示します。ビジュアルプロンプトを活用して詳細なビジュアル編集を制御し、複雑なシーンでも正確で構造的に一貫した修正を行いながら、インストルクションとは無関係の領域の忠実度を維持し、インストルクションとの整列と現実性を大幅に向上させます。特定の概念を描いた5つの参照画像だけで学習が可能で、10回の学習段階後も複雑なシーンで洗練された編集を行うことができます。ロボティクス分野にも適用可能性を示し、シミュレーション環境の視覚的現実性を向上させ、実環境のプロキシとしての有用性を高めます。