Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can open source large language models be used for tumor documentation in Germany? -- An evaluation on urological doctors' notes

Created by
  • Haebom
Category
Empty

저자

Stefan Lenz, Arsenij Ustjanzew, Marco Jeray, Torsten Panholzer

개요

본 논문은 독일의 수동적인 종양 기록 시스템을 개선하기 위해 11개의 오픈소스 대규모 언어 모델(LLM)을 평가한 연구 결과를 제시한다. 700억 개까지 다양한 매개변수를 가진 LLM들을 사용하여 종양 진단 식별, ICD-10 코드 할당, 최초 진단 날짜 추출 등 세 가지 기본 작업에 대한 성능을 평가하였다. 익명화된 비뇨기과 의사의 메모를 기반으로 제작된 주석이 달린 데이터셋을 사용하였으며, 다양한 프롬프팅 전략을 활용하여 모델의 성능을 분석하였다. Llama 3.1 8B, Mistral 7B, Mistral NeMo 12B 모델이 우수한 성능을 보였으며, 70억 개 미만 매개변수를 가진 모델은 성능이 현저히 낮았다. 70억~120억 매개변수 모델이 성능과 자원 효율성 측면에서 최적의 균형을 제공할 수 있음을 시사하며, 추가적인 미세 조정과 프롬프트 엔지니어링을 통해 임상 문서화에 활용될 가능성을 제시한다. 평가 코드와 데이터셋을 공개하여 독일어 의료 NLP 분야의 벤치마크 부족 문제 해결에 기여한다.

시사점, 한계점

시사점:
오픈소스 LLM이 종양 문서화 자동화에 큰 잠재력을 가짐을 보여줌.
70억~120억 매개변수 모델이 성능과 효율성 측면에서 최적의 균형을 제공.
적절한 미세 조정 및 프롬프트 엔지니어링을 통해 임상 문서화 도구로 활용 가능성 제시.
독일어 의료 NLP 분야의 귀중한 데이터셋 및 평가 코드 공개.
한계점:
연구는 비뇨기과 데이터에 국한됨. 다른 의료 분야로의 일반화 가능성에 대한 추가 연구 필요.
모델 크기 증가가 항상 성능 향상으로 이어지지는 않음. 최적의 모델 크기 존재 가능성 제시.
실제 임상 환경 적용 전 추가적인 검증 및 안전성 평가 필요.
👍