SPIE는 instruction-based 이미지 편집 diffusion model을 위한 새로운 semantic 및 structural post-training 방법론입니다. 사용자 prompt와의 정렬 및 입력 이미지와의 일관성이라는 주요 과제를 해결하기 위해, 대규모 데이터셋이나 광범위한 사람의 annotation 없이도 diffusion model을 사람의 선호도에 맞추는 online reinforcement learning framework를 제시합니다. visual prompt를 활용하여 세부적인 시각적 편집을 제어하고, 복잡한 장면에서도 정확하고 구조적으로 일관된 수정을 수행하면서 instruction과 무관한 영역의 충실도를 유지하여 instruction과의 정렬 및 현실성을 크게 향상시킵니다. 특정 개념을 묘사하는 5개의 참조 이미지만으로 학습이 가능하며, 10번의 학습 단계 후에도 복잡한 장면에서 정교한 편집을 수행할 수 있습니다. 로보틱스 분야에도 적용 가능성을 보여주며, 시뮬레이션 환경의 시각적 현실성을 향상시켜 실제 환경의 proxy로서의 유용성을 높입니다.