Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Fine-tuning foundational models to code diagnoses from veterinary health records

Created by
  • Haebom

저자

Mayla R. Boguslav, Adam Kiehl, David Kott, G. Joseph Strecker, Tracy Webb, Nadia Saklou, Terri Ward, Michael Kirby

개요

본 논문은 수의학 임상 연구를 위한 대규모 데이터 자원인 수의학 의료 기록의 상호 운용성 문제를 해결하기 위해 표준화된 의학 용어를 사용한 임상 코딩의 중요성을 강조합니다. 기존의 DeepTag 및 VetTag 연구에서 LSTM 및 Transformer 모델을 이용하여 수의학 진단 코딩 자동화를 시도한 것에 비해, 본 연구는 콜로라도 주립대학교 수의학 교육병원(CSU VTH)에서 인식하는 7,739개의 SNOMED-CT 진단 코드를 모두 포함하고, 사전 훈련된 언어 모델(LM)을 활용하여 CSU VTH의 전자 건강 기록(EHR)에 있는 246,473건의 수동 코딩된 수의학 환자 방문 기록을 사용하여 13개의 무료 사전 훈련된 LM을 미세 조정했습니다. 그 결과, 기존 연구보다 우수한 성능을 달성했으며, 방대한 라벨링 데이터를 사용하여 상대적으로 큰 임상 LM을 미세 조정했을 때 가장 정확한 결과를 얻었습니다. 하지만 제한된 자원과 비임상 LM을 사용하더라도 비슷한 결과를 얻을 수 있음을 보여주었습니다. 이 연구 결과는 자동 코딩을 위한 접근 가능한 방법을 조사함으로써 수의학 EHR의 질 향상에 기여하며, 종과 기관을 아우르는 통합적이고 포괄적인 건강 데이터베이스를 구축하여 동물과 인간의 건강 연구 모두를 지원합니다.

시사점, 한계점

시사점:
사전 훈련된 언어 모델을 활용하여 수의학 진단 코딩 자동화의 정확도를 향상시킬 수 있음을 보여줌.
방대한 데이터셋과 대규모 임상 LM을 사용하면 최상의 성능을 얻을 수 있지만, 제한된 자원과 비임상 LM으로도 유사한 성능을 달성할 수 있음을 제시.
수의학 EHR의 질 향상 및 종 간, 기관 간 통합적인 건강 데이터베이스 구축에 기여.
동물 및 인간 건강 연구에 활용 가능한 데이터 기반 확보에 기여.
한계점:
본 연구는 CSU VTH의 데이터에만 국한되어 일반화 가능성에 대한 추가 연구가 필요.
사용된 LM의 종류 및 크기에 따른 성능 차이에 대한 더욱 심층적인 분석이 필요.
다른 수의학 기관 및 종에 대한 적용 가능성 및 일반화 가능성에 대한 추가 연구 필요.
실제 임상 환경에서의 적용 및 유지보수에 대한 추가적인 연구가 필요.
👍