본 논문은 텍스트-이미지(T2I) 모델이 다양한 문화적 맥락을 정확하게 표현하는 능력에 대한 우려를 제기하며, 명시적 및 암시적 문화적 기대와 T2I 모델 및 평가 지표의 정합성을 체계적으로 정량화하는 최초의 연구를 제시합니다. 이를 위해 연구진은 10개국과 5개의 사회문화적 영역을 아우르는 새로운 벤치마크인 CulturalFrames를 도입했습니다. CulturalFrames는 983개의 프롬프트, 4개의 최첨단 T2I 모델이 생성한 3637개의 이미지, 그리고 1만 개가 넘는 상세한 인간 주석으로 구성됩니다. 연구 결과, 모델과 국가에 걸쳐 문화적 기대가 평균 44%의 비율로 충족되지 못하는 것으로 나타났습니다. 명시적 기대는 놀랍게도 평균 68%의 높은 비율로 충족되지 못했고, 암시적 기대 또한 평균 49%의 비율로 충족되지 못했습니다. 또한 기존 T2I 평가 지표는 내부 추론 방식에 관계없이 문화적 정합성에 대한 인간 판단과 상관성이 낮은 것으로 나타났습니다. 결론적으로 이 연구는 중요한 격차를 드러내고, 구체적인 테스트 환경을 제공하며, 글로벌 사용성을 개선하는 문화적으로 고려된 T2I 모델 및 지표 개발을 위한 실행 가능한 방향을 제시합니다.