본 논문은 병원 자금 조달 영역에서 진단 관련 그룹(DRG)을 결정하는 의료 코딩 및 의사결정 지원을 위한 대규모 언어 모델(LLM)의 성능을 평가하기 위한 최초의 공개 벤치마크인 NordDRG-AI-Benchmark를 소개한다. NordDRG-AI-Benchmark는 DRG 논리, ICD 및 NCSP 코드, 연령/성별 분할 및 국가 플래그를 포함하는 20개의 상호 연결된 표, 전문가 매뉴얼 및 변경 로그 템플릿, 그리고 코드 조회, 교차 표 추론, 다국어 용어 및 품질 보증 감사를 포함하는 14개의 CaseMix 작업 프롬프트 팩으로 구성된다. 다섯 가지 최첨단 LLM의 성능을 평가한 결과, 모델 간 성능 차이가 크게 나타났으며, 이는 일반적인 LLM 벤치마크에서는 드러나지 않는 도메인 특정 강점과 약점을 보여준다.