본 논문은 노르웨이 암등록소(CRN)의 암 등록 지원 시스템(CaReSS)의 핵심 구성 요소인 GURI(데이터 검증 모듈)의 테스트를 위한 LLM 기반 접근 방식인 LLMeDiff를 제안한다. LLMeDiff는 LLM을 사용하여 의료 규칙을 기반으로 GURI 테스트 케이스를 생성하고, 차등 테스트를 통해 GURI의 구현 불일치를 찾아낸다. 연구에서는 네 가지 LLM, 두 가지 의료 규칙 엔진 구현, 58개의 실제 의료 규칙을 사용하여 실험을 진행했으며, GPT-3.5가 환각 현상이 가장 적고 성공률이 가장 높으며 가장 강건하지만 시간 효율성은 가장 낮다는 결과를 얻었다. 차등 테스트를 통해 22개의 의료 규칙에서 구현 불일치를 발견했다.