본 논문은 진단 관련 그룹(DRG) 코드 자동 할당을 위한 대규모 강화 학습 모델인 DRG-Sapphire를 제시합니다. 기존의 대규모 언어 모델(LLM)이 의료 데이터 부족으로 DRG 코딩에 어려움을 겪는 점을 해결하기 위해, Qwen2.5-7B를 기반으로 그룹 상대 정책 최적화(GRPO)와 규칙 기반 보상을 사용하여 학습되었습니다. MIMIC-IV 벤치마크에서 최첨단 정확도를 달성하였으며, 의사가 검증한 추론 과정을 생성하여 설명 가능성을 높였습니다. 또한, 지식 집약적이고 분포 외(OOD) 작업에 강화 학습을 적용하는 데 대한 광범위한 과제를 조명하고, 강화 학습 성능이 감독식 미세 조정(SFT) 예제 수의 로그에 따라 선형적으로 증가함을 관찰하여, OOD 작업에서 강력한 강화 학습 성능을 위해서는 RL 이전에 충분한 지식 주입이 필요함을 시사합니다.