Cet article identifie les défis liés à l'évaluation des modèles d'apprentissage automatique génératif et propose GrandJury, un nouveau protocole d'évaluation pour y remédier. Il met en évidence les limites des méthodes d'évaluation statiques et basées sur des critères de référence, qui ne reflètent pas les besoins dynamiques des utilisateurs ni l'évolution des circonstances. GrandJury combine agrégation chronologique, traçabilité complète, application dynamique et transparente des critères de travail et jugement humain multi-évaluateur pour permettre une évaluation multidisciplinaire et responsable. Il fournit une implémentation open source (package PyPI grandjury) qui inclut les résultats d'inférence LLM, démontrant ainsi la nécessité et la méthodologie de GrandJury. Cela présente un nouveau paradigme pour l'évaluation des résultats d'apprentissage automatique sans réponses absolues.