Sign In

RuCCoD: Towards Automated ICD Coding in Russian

Created by
  • Haebom
Category
Empty

저자

Aleksandr Nesterov, Andrey Sakhovskiy, Ivan Sviridov, Airat Valiev, Vladimir Makharev, Petr Anokhin, Galina Zubkova, Elena Tutubalina

개요

러시아어와 같이 생물의학 자원이 부족한 언어에서 임상 코딩 자동화의 실현 가능성을 조사한 연구입니다. 전자 건강 기록(EHR)의 진단 필드를 10,000개 이상의 엔티티와 1,500개 이상의 고유한 ICD 코드로 주석 처리한 새로운 ICD 코딩 데이터 세트를 제시합니다. 이 데이터 세트는 BERT, LoRA를 사용한 LLaMA, RAG를 포함한 여러 최첨단 모델의 벤치마크 역할을 합니다. 또한 도메인 간(PubMed 초록에서 의료 진단으로) 및 용어 간(UMLS 개념에서 ICD 코드로) 전이 학습을 조사하는 추가 실험을 수행했습니다. 최고 성능 모델을 사용하여 2017년부터 2021년까지의 환자 기록이 포함된 사내 EHR 데이터 세트에 레이블을 지정했습니다. 신중하게 큐레이션된 테스트 세트에서 수행된 실험 결과, 자동으로 예측된 코드로 학습하면 의사의 수동 주석 데이터와 비교하여 정확도가 크게 향상됨을 보여줍니다. 이러한 결과는 러시아어와 같은 자원이 부족한 언어에서 임상 코딩 자동화의 잠재력에 대한 귀중한 통찰력을 제공하며, 이는 이러한 맥락에서 임상 효율성과 데이터 정확성을 향상시킬 수 있습니다.

시사점, 한계점

시사점:
러시아어와 같이 의료 자원이 부족한 언어에서도 임상 코딩 자동화가 가능함을 보여줌.
자동으로 예측된 코드를 사용한 학습이 수동 주석 데이터보다 정확도를 향상시킴.
새로운 ICD 코딩 데이터 세트는 향후 연구를 위한 중요한 벤치마크 역할을 함.
임상 효율성과 데이터 정확성 향상에 기여할 수 있음.
한계점:
연구는 러시아어에 특화되어 있어 다른 언어로의 일반화 가능성은 제한적일 수 있음.
사용된 데이터 세트의 크기와 다양성에 따라 성능이 영향을 받을 수 있음.
실제 임상 환경에서의 적용 가능성에 대한 추가 연구가 필요함.
특정 모델 및 방법론에 대한 의존성이 존재할 수 있음.
👍