Cet article présente le NordDRG-AI-Benchmark, premier benchmark accessible au public pour évaluer la capacité de raisonnement des groupes de diagnostic (DRG), un élément crucial du financement hospitalier. Étant donné que des milliards de dollars de dépenses de santé dans les pays de l'OCDE transitent par les systèmes DRG, la transparence et l'auditabilité sont cruciales. Le NordDRG-AI-Benchmark comprend une table de définition NordDRG lisible par machine, un manuel d'expert et un modèle de journal des modifications. Il propose deux benchmarks : un benchmark logique (13 tâches) et un benchmark de regroupement (13 tâches). Le benchmark logique inclut des recherches de code, un raisonnement croisé, des fonctions de regroupement, une terminologie multilingue et la validation CC/MCC, tandis que le benchmark de regroupement nécessite une émulation parfaite du groupeur DRG. Les résultats expérimentaux montrent que GPT-5 Thinking et Opus 4.1 ont obtenu des scores élevés au benchmark logique, mais même GPT-5 Thinking n'a pas réussi à émuler parfaitement le benchmark de regroupement. Ce benchmark peut contribuer à évaluer objectivement la performance des LLM dans le domaine du financement hospitalier.