러시아어와 같이 생물의학 자원이 부족한 언어에서 임상 코딩 자동화의 실현 가능성을 조사한 연구입니다. 전자 건강 기록(EHR)의 진단 필드를 10,000개 이상의 엔티티와 1,500개 이상의 고유한 ICD 코드로 주석 처리한 새로운 ICD 코딩 데이터 세트를 제시합니다. 이 데이터 세트는 BERT, LoRA를 사용한 LLaMA, RAG를 포함한 여러 최첨단 모델의 벤치마크 역할을 합니다. 또한 도메인 간(PubMed 초록에서 의료 진단으로) 및 용어 간(UMLS 개념에서 ICD 코드로) 전이 학습을 조사하는 추가 실험을 수행했습니다. 최고 성능 모델을 사용하여 2017년부터 2021년까지의 환자 기록이 포함된 사내 EHR 데이터 세트에 레이블을 지정했습니다. 신중하게 큐레이션된 테스트 세트에서 수행된 실험 결과, 자동으로 예측된 코드로 학습하면 의사의 수동 주석 데이터와 비교하여 정확도가 크게 향상됨을 보여줍니다. 이러한 결과는 러시아어와 같은 자원이 부족한 언어에서 임상 코딩 자동화의 잠재력에 대한 귀중한 통찰력을 제공하며, 이는 이러한 맥락에서 임상 효율성과 데이터 정확성을 향상시킬 수 있습니다.