Cet article aborde les préoccupations concernant la capacité des modèles texte-image (T2I) à représenter fidèlement divers contextes culturels et présente la première étude visant à quantifier systématiquement la cohérence des attentes culturelles explicites et implicites avec les modèles T2I et les indicateurs d'évaluation. À cette fin, nous présentons CulturalFrames, un nouveau référentiel couvrant dix pays et cinq domaines socioculturels. CulturalFrames comprend 983 invites, 3 637 images générées par quatre modèles T2I de pointe et plus de 10 000 annotations humaines détaillées. Nos résultats révèlent que les attentes culturelles sont insatisfaites en moyenne 44 % du temps, selon les modèles et les pays. Un taux étonnamment élevé de 68 % des attentes explicites sont insatisfaites, et 49 % des attentes implicites le sont également. De plus, les indicateurs d'évaluation T2I existants, quelles que soient leurs méthodes d'inférence sous-jacentes, présentent de faibles corrélations avec les jugements humains de cohérence culturelle. En conclusion, cette étude révèle des lacunes importantes, fournit des environnements de test concrets et suggère des orientations concrètes pour développer des modèles et des mesures T2I culturellement sensibles qui améliorent la convivialité globale.