텍스트-이미지 확산 모델은 저작권, 안전하지 않거나 개인적인 콘텐츠를 생성할 수 있다. 안전성 정렬은 특정 개념을 억제하는 것을 목표로 하지만, 배포 후 일상적으로 적용되는 (예: LoRA 개인화, 스타일/도메인 어댑터) 무해한 다운스트림 미세 조정 하에서 안전성이 유지되는지 평가하는 경우는 드물다. 본 논문은 무해한 미세 조정 하에서 현재 안전성 방법의 안정성을 연구하고 빈번한 실패를 관찰한다. 진정한 안전성 정렬은 무해한 배포 후 적응에도 견뎌야 하므로, SPQR 벤치마크 (Safety-Prompt adherence-Quality-Robustness)를 소개한다. SPQR은 안전성 정렬된 확산 모델이 무해한 미세 조정 하에서 안전성, 유용성 및 견고성을 얼마나 잘 유지하는지 평가하기 위한 표준화되고 재현 가능한 프레임워크를 제공하는 단일 점수 지표이다. SPQR은 비교를 용이하게 하기 위해 단일 리더보드 점수를 보고한다. 본 연구는 다국어, 도메인별, 및 분포 외부 분석을 수행하고, 범주별 분석을 통해 무해한 미세 조정 후 안전성 정렬이 실패하는 시점을 식별하여, SPQR이 T2I 모델에 대한 T2I 안전성 정렬 기술을 위한 간결하면서도 포괄적인 벤치마크임을 보여준다.