Este artículo aborda el problema de los protocolos de evaluación inconsistentes y, en ocasiones, defectuosos en el campo de la síntesis de imágenes de privacidad diferencial (PD) y propone DPImageBench, un punto de referencia de evaluación estandarizado para la síntesis de imágenes PD. DPImageBench evalúa sistemáticamente 11 metodologías principales, nueve conjuntos de datos y siete métricas de fidelidad y usabilidad. Específicamente, encontramos que la práctica común de seleccionar el subclasificador que logra la mayor precisión en un conjunto de prueba sensible viola la PD y sobreestima la puntuación de usabilidad, y corregimos esto. Además, demostramos que el preentrenamiento en conjuntos de datos de imágenes públicas no siempre es beneficioso, y que la similitud distribucional entre el preentrenamiento y las imágenes sensibles impacta significativamente el rendimiento de las imágenes sintetizadas. Finalmente, encontramos que agregar ruido a características de baja dimensión (p. ej., características de alta dimensión de imágenes sensibles) en lugar de características de alta dimensión (p. ej., gradientes de peso) es menos sensible a los presupuestos de privacidad y produce un mejor rendimiento con presupuestos de privacidad bajos.