Sign In

LLMs in the Heart of Differential Testing: A Case Study on a Medical Rule Engine

Created by
  • Haebom
Category
Empty

저자

Erblin Isaku, Christoph Laaber, Hassan Sartaj, Shaukat Ali, Thomas Schwitalla, Jan F. Nyg\r{a}rd

개요

본 논문은 노르웨이 암등록소(CRN)의 암 등록 지원 시스템(CaReSS)의 핵심 구성 요소인 GURI(데이터 검증 모듈)의 테스트를 위한 LLM 기반 접근 방식인 LLMeDiff를 제안한다. LLMeDiff는 LLM을 사용하여 의료 규칙을 기반으로 GURI 테스트 케이스를 생성하고, 차등 테스트를 통해 GURI의 구현 불일치를 찾아낸다. 연구에서는 네 가지 LLM, 두 가지 의료 규칙 엔진 구현, 58개의 실제 의료 규칙을 사용하여 실험을 진행했으며, GPT-3.5가 환각 현상이 가장 적고 성공률이 가장 높으며 가장 강건하지만 시간 효율성은 가장 낮다는 결과를 얻었다. 차등 테스트를 통해 22개의 의료 규칙에서 구현 불일치를 발견했다.

시사점, 한계점

시사점:
LLM을 활용하여 의료 데이터 검증 시스템의 테스트 케이스를 자동 생성하고, 시스템의 오류를 효과적으로 발견할 수 있음을 보여줌.
GPT-3.5를 포함한 LLM의 의료 데이터 검증 분야 적용 가능성을 제시.
차등 테스트를 통해 실제 시스템의 구현 불일치를 효과적으로 찾아낼 수 있음을 증명.
의료 데이터 검증 시스템의 품질 향상 및 효율적인 유지보수 방안 제시.
한계점:
GPT-3.5의 시간 효율성이 낮음.
사용된 LLM의 종류와 의료 규칙 엔진 구현의 제한된 범위.
더 많은 의료 규칙과 다양한 LLM에 대한 추가 연구 필요.
LLM의 환각 현상에 대한 완벽한 해결책 부재.
👍