Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

CulturalFrames: Đánh giá sự phù hợp kỳ vọng văn hóa trong các mô hình văn bản sang hình ảnh và các chỉ số đánh giá

Created by
  • Haebom

Tác giả

Shravan Nayak, Mehar Bhatia, Xiaofeng Zhang, Verena Rieser, Lisa Anne Hendricks, Sjoerd van Steenkiste, Yash Goyal, Karolina Sta nczak, Aishwarya Agrawal

Phác thảo

Bài báo này đề cập đến những lo ngại về khả năng của các mô hình chuyển đổi văn bản sang hình ảnh (T2I) trong việc thể hiện chính xác các bối cảnh văn hóa đa dạng và trình bày nghiên cứu đầu tiên định lượng một cách có hệ thống tính nhất quán của các kỳ vọng văn hóa rõ ràng và ngầm định với các mô hình T2I và các thước đo đánh giá. Để đạt được mục tiêu này, chúng tôi giới thiệu CulturalFrames, một chuẩn mực mới trải rộng trên mười quốc gia và năm lĩnh vực văn hóa xã hội. CulturalFrames bao gồm 983 gợi ý, 3.637 hình ảnh được tạo ra bởi bốn mô hình T2I tiên tiến và hơn 10.000 chú thích chi tiết của con người. Kết quả của chúng tôi cho thấy các kỳ vọng văn hóa bị đáp ứng sai trung bình 44% thời gian trên khắp các mô hình và quốc gia. Một con số đáng ngạc nhiên là 68% kỳ vọng rõ ràng bị đáp ứng sai, và 49% kỳ vọng ngầm định bị đáp ứng sai. Hơn nữa, các thước đo đánh giá T2I hiện có, bất kể phương pháp suy luận cơ bản của chúng, đều cho thấy mối tương quan thấp với đánh giá của con người về tính nhất quán văn hóa. Tóm lại, nghiên cứu này chỉ ra những khoảng trống quan trọng, cung cấp môi trường thử nghiệm cụ thể và đề xuất các hướng hành động để phát triển các mô hình và thước đo T2I nhạy cảm với văn hóa nhằm cải thiện khả năng sử dụng toàn cầu.

Takeaways, Limitations

Takeaways:
Chúng tôi giới thiệu CulturalFrames, một chuẩn mực mới để đo lường và phân tích định lượng các vấn đề về định kiến văn hóa trong mô hình T2I.
Mô hình T2I cho thấy tỷ lệ không đáp ứng được kỳ vọng về văn hóa cao (68% rõ ràng, 49% ngầm hiểu, 44% tổng thể).
Cho thấy các số liệu đánh giá hiện tại không đánh giá đầy đủ sự phù hợp về mặt văn hóa.
Nhấn mạnh nhu cầu phát triển các mô hình T2I nhạy cảm về mặt văn hóa và các chỉ số đánh giá.
Limitations:
Các tiêu chuẩn của CulturalFrames tập trung vào các quốc gia và khu vực văn hóa xã hội cụ thể, điều này có thể hạn chế khả năng khái quát hóa của chúng.
Tính chủ quan trong chú thích của con người có thể ảnh hưởng đến kết quả.
Mặc dù chúng tôi đã đề cập đến nhiều mô hình T2I, nhưng chúng tôi có thể không đề cập đến tất cả các mô hình.
Việc giải thích những kỳ vọng ngầm về văn hóa có thể không rõ ràng.
👍