본 연구는 텍스트-이미지 확산 모델에서 일반화와 기억 사이의 모호성을 해결하며, 다중 모드 아이콘성(multimodal iconicity)이라는 특정 사례에 초점을 맞춘다. 이는 제목이 익숙한 예술 작품이나 영화 장면을 연상시키는 것과 같이 이미지와 텍스트가 문화적으로 공유된 연상을 불러일으키는 경우를 의미한다. 기억 및 언러닝에 대한 기존 연구는 망각에 중점을 둔 반면, 본 연구는 무엇이 기억되고 어떻게 기억되는지, 즉 문화적 레퍼런스를 인식하는 것과 이를 재현하는 것 사이의 균형에 초점을 맞춘다. 본 연구에서는 인식과 구현을 분리하는 평가 프레임워크를 도입하고, 5개의 확산 모델을 767개의 Wikidata 기반 문화적 레퍼런스에 대해 평가한다. 또한, 언어적 민감도를 평가하기 위해 프롬프트 변동 실험을 수행하고, 문화적 정렬이 훈련 데이터 빈도뿐만 아니라 텍스트의 고유성, 레퍼런스 인기, 생성 날짜와도 관련이 있음을 발견했다.