Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Le benchmark NordDRG AI pour les grands modèles linguistiques

Created by
  • Haebom

Auteur

Tapio Pitk aranta

Contour

Cet article présente le NordDRG-AI-Benchmark, premier benchmark accessible au public pour évaluer la capacité de raisonnement des groupes de diagnostic (DRG), un élément crucial du financement hospitalier. Étant donné que des milliards de dollars de dépenses de santé dans les pays de l'OCDE transitent par les systèmes DRG, la transparence et l'auditabilité sont cruciales. Le NordDRG-AI-Benchmark comprend une table de définition NordDRG lisible par machine, un manuel d'expert et un modèle de journal des modifications. Il propose deux benchmarks : un benchmark logique (13 tâches) et un benchmark de regroupement (13 tâches). Le benchmark logique inclut des recherches de code, un raisonnement croisé, des fonctions de regroupement, une terminologie multilingue et la validation CC/MCC, tandis que le benchmark de regroupement nécessite une émulation parfaite du groupeur DRG. Les résultats expérimentaux montrent que GPT-5 Thinking et Opus 4.1 ont obtenu des scores élevés au benchmark logique, mais même GPT-5 Thinking n'a pas réussi à émuler parfaitement le benchmark de regroupement. Ce benchmark peut contribuer à évaluer objectivement la performance des LLM dans le domaine du financement hospitalier.

Takeaways, Limitations

Takeaways:
Nous fournissons la première référence publique et parfaite en matière de règles pour l'inférence DRG, fournissant une base de référence pour évaluer l'applicabilité du LLM aux soins de santé.
L'applicabilité pratique du LLM peut être évaluée objectivement à travers des benchmarks pour une émulation parfaite des groupeurs DRG.
Fournit des évaluations reproductibles et comparables à l’aide de scores de correspondance précis.
Cela peut contribuer à accroître la transparence et l’auditabilité du financement des hôpitaux.
Limitations:
Les LLM actuels ont du mal à imiter parfaitement la logique complète du groupeur DRG.
Le benchmark est spécifique au système NordDRG et peut ne pas être directement applicable à d’autres systèmes DRG.
Nous avons besoin de LLM plus diversifiés et d’une gamme plus large de cas de test.
👍