Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CaseReportBench: An LLM Benchmark Dataset for Dense Information Extraction in Clinical Case Reports

Created by
  • Haebom

저자

Xiao Yu Cindy Zhang (University of British Columbia), Carlos R. Ferreira (National Institutes of Health), Francis Rossignol (National Institutes of Health), Raymond T. Ng (University of British Columbia), Wyeth Wasserman (University of British Columbia), Jian Zhu (University of British Columbia)

개요

본 논문은 희귀 질환, 특히 선천성 대사 이상(IEM) 진단의 어려움을 해결하기 위해 사례 보고서를 활용하는 방법을 제시합니다. 사례 보고서에서 의학 정보를 구조화된 범주로 정리하는 밀집 정보 추출(Clinical dense information extraction)에 초점을 맞춰, 대규모 언어 모델(LLM)의 활용 가능성을 평가했습니다. 이를 위해 전문가가 주석을 단 IEM 사례 보고서 데이터셋인 CaseReportBench를 제작하고, 다양한 모델과 프롬프팅 전략(범주별 프롬프팅, 소제목 필터링 데이터 통합 등)의 성능을 비교 분석했습니다. 그 결과, Qwen2.5-7B 모델이 GPT-4o를 능가하는 성능을 보였으며, 임상의 평가를 통해 LLM이 사례 보고서에서 임상적으로 중요한 정보를 추출하여 희귀 질환 진단 및 관리에 도움을 줄 수 있음을 확인했습니다. 하지만, 감별 진단에 중요한 음성 소견 인식에는 한계가 있음을 지적했습니다.

시사점, 한계점

시사점:
LLM을 활용한 희귀 질환 진단 지원 시스템 개발 가능성 제시
CaseReportBench 데이터셋 공개를 통한 후속 연구 촉진
범주별 프롬프팅 및 소제목 필터링과 같은 효과적인 프롬프팅 전략 제시
Qwen2.5-7B 모델의 우수한 성능 확인
LLM 기반 의료 AI 응용 확장 가능성 증명
한계점:
LLM의 음성 소견 인식 능력 부족
감별 진단에 필요한 정보 추출의 정확도 향상 필요
LLM의 신뢰성 및 설명 가능성에 대한 추가 연구 필요
👍