Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Une critique conséquentialiste des pratiques d'évaluation de la classification binaire

Created by
  • Haebom

Auteur

Gerardo Flores, Abigail Schiff, Alyssa H. Smith, Julia A Fukuyama, Ashia C. Wilson

Contour

Cet article souligne les problèmes des études précédentes sur l'évaluation des prédictions de classification binaire (par exemple, les tests de classement, les décisions de détention préventive) basées sur l'apprentissage automatique, et propose une méthode d'évaluation plus appropriée du point de vue de la théorie de la décision. Alors que les études précédentes avaient tendance à utiliser des mesures telles que l'exactitude, Precision@K, ou des mesures indépendantes du seuil comme AUC-ROC, cet article soutient que des mesures telles que le score de Brier et la perte logarithmique, qui prennent en compte différents seuils, sont plus appropriées. Nous étayons cet argument en analysant des articles publiés par de grandes sociétés savantes (ICML, FAccT, CHIL) et présentons un package Python briertools pour l'utilisation des scores de Brier. De plus, nous révélant un nouveau lien théorique entre les scores de Brier et l'analyse de la courbe de décision, et apportons une réponse aux critiques concernant la règle de notation appropriée existante (Assel et al., 2017).

Takeaways, Limitations

Takeaways:
Nous soulignons l’importance de la perspective de la théorie de la décision dans l’évaluation de la prise de décision basée sur l’apprentissage automatique et suggérons l’utilisation de mesures telles que le score de Brier et la perte logarithmique.
En élucidant le lien théorique entre le score Brier et l’analyse de la courbe de décision, nous proposons une solution aux critiques existantes de la règle de notation appropriée.
Nous fournissons un package Python briertools pour utiliser les scores Brier afin de faciliter l'application pratique.
Limitations:
Les résultats de l’analyse des principaux articles universitaires peuvent être limités à des sociétés universitaires spécifiques, ce qui peut limiter la généralisation.
Rien ne garantit que le score de Brier et la perte logarithmique proposés soient toujours optimaux pour tous les problèmes de prise de décision basés sur l'apprentissage automatique. Selon la nature du problème, d'autres mesures peuvent être plus appropriées.
Une validation supplémentaire des performances et de la convivialité du package briertools peut être requise.
👍