Stable Diffusion과 같은 잠재 확산 모델은 텍스트-이미지 생성 작업에서 최첨단 결과를 달성하지만, 생성된 이미지에 대한 의미론적 이해 정도는 잘 알려져 있지 않다. 본 연구에서는 이러한 모델이 텍스트-이미지 생성 과정에서 사용하는 내부 표현에 인간에게 의미 있는 의미론적 정보가 포함되어 있는지 조사한다. 이를 위해, Stable Diffusion에 객체의 의미론적 속성을 예측하는 간단한 회귀 계층을 적용하여 인간 주석에 대해 이러한 예측을 평가한다. 결과적으로, 이 성공은 역 확산 과정이 아닌 CLIP에서 발생하는 텍스트 인코딩에 기인한다는 것을 발견했다.