Este artículo presenta el NordDRG-AI-Benchmark, el primer punto de referencia disponible públicamente para evaluar la capacidad de razonamiento de los grupos relacionados con el diagnóstico (GRD), un componente crucial de la financiación hospitalaria. Dado que billones de dólares del gasto sanitario en los países de la OCDE se canalizan a través de sistemas de GRD, la transparencia y la auditabilidad son cruciales. El NordDRG-AI-Benchmark incluye una tabla de definición de NordDRG legible por máquina, un manual experto y una plantilla de registro de cambios. Proporciona dos puntos de referencia: un punto de referencia lógico (13 tareas) y un punto de referencia de agrupación (13 tareas). El punto de referencia lógico incluye búsquedas de código, razonamiento entre tablas, funciones de agrupación, terminología multilingüe y validación CC/MCC, mientras que el punto de referencia de agrupación requiere una emulación perfecta del agrupador de GRD. Los resultados experimentales muestran que GPT-5 Thinking y Opus 4.1 obtuvieron puntuaciones altas en el punto de referencia lógico, pero incluso GPT-5 Thinking no logró emular perfectamente el punto de referencia de agrupación. Este punto de referencia puede contribuir a la evaluación objetiva del rendimiento de los LLM en el ámbito de la financiación hospitalaria.