Ngoài việc nghiên cứu sự thiên vị trong miêu tả của con người trong các mô hình tạo văn bản thành hình ảnh, bài báo này còn tìm hiểu về sự thiên vị nhân khẩu học trong chính các đối tượng (ví dụ: ô tô). Chúng tôi trình bày một khuôn khổ mới, Kiểm toán Chẩn đoán Đối tượng Định kiến (SODA), tạo ra 2.700 hình ảnh thuộc năm loại đối tượng bằng ba mô hình tiên tiến (GPT Image-1, Imagen 4 và Stable Diffusion) và so sánh kết quả tạo ra bằng cách sử dụng các tín hiệu nhân khẩu học (ví dụ: "dành cho người trẻ") với các kết quả được tạo ra bằng các gợi ý trung tính. Phân tích của chúng tôi cho thấy mối liên hệ chặt chẽ giữa các nhóm nhân khẩu học cụ thể và các thuộc tính thị giác (ví dụ: các mẫu màu lặp lại được kích hoạt bởi các gợi ý về giới tính hoặc dân tộc). Những mẫu này phản ánh và củng cố không chỉ các khuôn mẫu phổ biến mà còn cả những thiên vị tinh vi và phản trực giác hơn. Hơn nữa, chúng tôi nhận thấy rằng một số mô hình tạo ra đầu ra có độ đa dạng thấp, khuếch đại sự khác biệt về thị giác so với các gợi ý trung tính. Khuôn khổ kiểm toán được đề xuất cung cấp một cách thực tế để khám phá những thiên vị vẫn còn tồn tại trong các mô hình tạo hình hiện nay và trình bày chúng như một bước thiết yếu hướng tới sự phát triển AI có hệ thống và có trách nhiệm hơn.