En este artículo, proponemos un proceso que transforma sistemáticamente la retroalimentación de usuarios reales en una lista de verificación estructurada para abordar el problema de que las métricas automatizadas existentes para evaluar la calidad de los historiales médicos generados por IA no se ajustan a las preferencias reales de los médicos. Utilizando más de 21 000 historiales médicos preparados bajo las disposiciones de seguridad de la HIPAA, demostramos que la lista de verificación propuesta, basada en la retroalimentación, supera a los métodos existentes en términos de cobertura, diversidad y capacidad predictiva de la evaluación humana. Los resultados experimentales demuestran que la lista de verificación es robusta ante factores que degradan la calidad, presenta una alta coherencia con las preferencias de los médicos y tiene valor práctico como metodología de evaluación. En un entorno de investigación presencial, esta lista de verificación puede ayudar a identificar historiales que no cumplen con los estándares de calidad establecidos.