Bài báo này đề cập đến những lo ngại về khả năng của các mô hình chuyển đổi văn bản sang hình ảnh (T2I) trong việc thể hiện chính xác các bối cảnh văn hóa đa dạng và trình bày nghiên cứu đầu tiên định lượng một cách có hệ thống tính nhất quán của các kỳ vọng văn hóa rõ ràng và ngầm định với các mô hình T2I và các thước đo đánh giá. Để đạt được mục tiêu này, chúng tôi giới thiệu CulturalFrames, một chuẩn mực mới trải rộng trên mười quốc gia và năm lĩnh vực văn hóa xã hội. CulturalFrames bao gồm 983 gợi ý, 3.637 hình ảnh được tạo ra bởi bốn mô hình T2I tiên tiến và hơn 10.000 chú thích chi tiết của con người. Kết quả của chúng tôi cho thấy các kỳ vọng văn hóa bị đáp ứng sai trung bình 44% thời gian trên khắp các mô hình và quốc gia. Một con số đáng ngạc nhiên là 68% kỳ vọng rõ ràng bị đáp ứng sai, và 49% kỳ vọng ngầm định bị đáp ứng sai. Hơn nữa, các thước đo đánh giá T2I hiện có, bất kể phương pháp suy luận cơ bản của chúng, đều cho thấy mối tương quan thấp với đánh giá của con người về tính nhất quán văn hóa. Tóm lại, nghiên cứu này chỉ ra những khoảng trống quan trọng, cung cấp môi trường thử nghiệm cụ thể và đề xuất các hướng hành động để phát triển các mô hình và thước đo T2I nhạy cảm với văn hóa nhằm cải thiện khả năng sử dụng toàn cầu.