Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Alignement de l'évaluation sur les priorités cliniques : étalonnage, décalage d'étiquette et coûts d'erreur

Created by
  • Haebom

Auteur

Gerardo A. Flores, Alyssa H. Smith, Julia A. Fukuyama, Ashia C. Wilson

Contour

Cet article aborde les problématiques d'évaluation des systèmes d'aide à la décision basés sur l'apprentissage automatique, de plus en plus utilisés en pratique médicale, et propose un nouveau cadre d'évaluation pour y répondre. Les indicateurs d'évaluation existants, tels que la précision ou l'ASC-ROC, ne reflètent pas adéquatement les priorités cliniques importantes telles que l'étalonnage, la robustesse aux changements distributionnels et la sensibilité aux coûts d'erreur asymétriques. Par conséquent, nous présentons dans cet article un cadre d'évaluation pratique et fondé sur des principes pour la sélection de classificateurs à seuil calibrés, qui prend explicitement en compte l'incertitude des probabilités d'émergence de classes et les coûts asymétriques spécifiques à un domaine, fréquemment rencontrés en milieu clinique. Plus précisément, nous dérivons une variante d'entropie croisée calibrée (score logarithmique) qui calcule la moyenne des performances pondérées par les coûts sur une plage cliniquement pertinente d'équilibres de classes, en s'appuyant sur une théorie des règles de notation appropriée centrée sur la représentation de Schervish. Le schéma d'évaluation proposé est conçu pour privilégier les modèles faciles à appliquer, sensibles aux conditions de déploiement clinique et robustes aux changements calibrés et réels.

Takeaways, Limitations_

Takeaways:
Surmonter les limites des indicateurs existants dans l'évaluation des modèles d'apprentissage automatique dans le domaine médical et présenter un nouveau cadre d'évaluation qui reflète les priorités cliniques
Permet une évaluation plus réaliste du modèle en prenant en compte le déséquilibre des classes et les coûts asymétriques
Une évaluation simple et efficace peut être réalisée en utilisant l’entropie croisée corrigée.
Prédire les performances des modèles dans des environnements cliniques réels et sélectionner des modèles robustes
Limitations:
Une validation supplémentaire du cadre proposé dans des applications cliniques pratiques est nécessaire.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité dans différents contextes cliniques et types de maladies.
Subjectivité et dépendance des connaissances du domaine sur le réglage de la fonction de coût
Des explications supplémentaires sont nécessaires sur l’interprétation et la compréhension des nouveaux indicateurs d’évaluation.
👍