Cet article souligne les problèmes des études précédentes sur l'évaluation des prédictions de classification binaire (par exemple, les tests de classement, les décisions de détention préventive) basées sur l'apprentissage automatique, et propose une méthode d'évaluation plus appropriée du point de vue de la théorie de la décision. Alors que les études précédentes avaient tendance à utiliser des mesures telles que l'exactitude, Precision@K, ou des mesures indépendantes du seuil comme AUC-ROC, cet article soutient que des mesures telles que le score de Brier et la perte logarithmique, qui prennent en compte différents seuils, sont plus appropriées. Nous étayons cet argument en analysant des articles publiés par de grandes sociétés savantes (ICML, FAccT, CHIL) et présentons un package Python briertools pour l'utilisation des scores de Brier. De plus, nous révélant un nouveau lien théorique entre les scores de Brier et l'analyse de la courbe de décision, et apportons une réponse aux critiques concernant la règle de notation appropriée existante (Assel et al., 2017).