Bài báo này đề cập đến vấn đề về các giao thức đánh giá không nhất quán và đôi khi bị lỗi trong lĩnh vực tổng hợp hình ảnh riêng tư khác biệt (DP) và đề xuất DPImageBench, một chuẩn mực đánh giá chuẩn hóa cho tổng hợp hình ảnh DP. DPImageBench đánh giá một cách có hệ thống 11 phương pháp luận chính, chín tập dữ liệu và bảy số liệu về độ trung thực và khả năng sử dụng. Cụ thể, chúng tôi thấy rằng thông lệ phổ biến là chọn bộ phân loại phụ đạt độ chính xác cao nhất trên một tập kiểm tra nhạy cảm vi phạm DP và đánh giá quá cao điểm khả năng sử dụng, và chúng tôi đã sửa lỗi này. Hơn nữa, chúng tôi chứng minh rằng việc đào tạo trước trên các tập dữ liệu hình ảnh công khai không phải lúc nào cũng có lợi và tính tương đồng về phân phối giữa đào tạo trước và hình ảnh nhạy cảm ảnh hưởng đáng kể đến hiệu suất của hình ảnh tổng hợp. Cuối cùng, chúng tôi thấy rằng việc thêm nhiễu vào các đặc điểm có chiều thấp (ví dụ: các đặc điểm có chiều cao của hình ảnh nhạy cảm) thay vì các đặc điểm có chiều cao (ví dụ: độ dốc trọng số) ít nhạy cảm hơn với ngân sách riêng tư và mang lại hiệu suất tốt hơn trong ngân sách riêng tư thấp.