Cet article aborde les problématiques d'évaluation des systèmes d'aide à la décision basés sur l'apprentissage automatique, de plus en plus utilisés en pratique médicale, et propose un nouveau cadre d'évaluation pour y répondre. Les indicateurs d'évaluation existants, tels que la précision ou l'ASC-ROC, ne reflètent pas adéquatement les priorités cliniques importantes telles que l'étalonnage, la robustesse aux changements distributionnels et la sensibilité aux coûts d'erreur asymétriques. Par conséquent, nous présentons dans cet article un cadre d'évaluation pratique et fondé sur des principes pour la sélection de classificateurs à seuil calibrés, qui prend explicitement en compte l'incertitude des probabilités d'émergence de classes et les coûts asymétriques spécifiques à un domaine, fréquemment rencontrés en milieu clinique. Plus précisément, nous dérivons une variante d'entropie croisée calibrée (score logarithmique) qui calcule la moyenne des performances pondérées par les coûts sur une plage cliniquement pertinente d'équilibres de classes, en s'appuyant sur une théorie des règles de notation appropriée centrée sur la représentation de Schervish. Le schéma d'évaluation proposé est conçu pour privilégier les modèles faciles à appliquer, sensibles aux conditions de déploiement clinique et robustes aux changements calibrés et réels.