Este artículo identifica los desafíos en la evaluación de modelos de aprendizaje automático generativo y propone GrandJury, un novedoso protocolo de evaluación para abordar estos problemas. Destaca las limitaciones de los métodos de evaluación estáticos basados en benchmarks, que no reflejan las necesidades dinámicas de los usuarios ni las circunstancias cambiantes. GrandJury combina la agregación con decaimiento temporal, la trazabilidad completa, la aplicación dinámica y transparente de los criterios de trabajo y el criterio humano de múltiples evaluadores para permitir una evaluación multidisciplinaria y responsable. Proporciona una implementación de código abierto (paquete PyPI de GrandJury) que incluye resultados de inferencia LLM, lo que demuestra la necesidad y la metodología de GrandJury. Esto presenta un nuevo paradigma para evaluar los resultados del aprendizaje automático sin respuestas absolutas.