Bài báo này giới thiệu NordDRG-AI-Benchmark, chuẩn mực công khai đầu tiên để đánh giá khả năng lập luận của các nhóm liên quan đến chẩn đoán (DRG), một thành phần quan trọng trong tài trợ bệnh viện. Với hàng nghìn tỷ đô la chi tiêu cho chăm sóc sức khỏe tại các quốc gia OECD được chuyển qua hệ thống DRG, tính minh bạch và khả năng kiểm toán là rất quan trọng. NordDRG-AI-Benchmark bao gồm một bảng định nghĩa NordDRG có thể đọc bằng máy, một hướng dẫn chuyên gia và một mẫu nhật ký thay đổi. Nó cung cấp hai chuẩn mực: chuẩn mực logic (13 nhiệm vụ) và chuẩn mực nhóm (13 nhiệm vụ). Chuẩn mực logic bao gồm tra cứu mã, lập luận bảng chéo, các hàm nhóm, thuật ngữ đa ngôn ngữ và xác thực CC/MCC, trong khi chuẩn mực nhóm yêu cầu mô phỏng hoàn hảo nhóm DRG. Kết quả thực nghiệm cho thấy GPT-5 Thinking và Opus 4.1 đạt điểm cao trong chuẩn mực logic, nhưng ngay cả GPT-5 Thinking cũng không thể mô phỏng hoàn hảo chuẩn mực nhóm. Chuẩn mực này có thể góp phần đánh giá khách quan hiệu suất của các LLM trong lĩnh vực tài chính bệnh viện.