Sign In

A Simplified Retriever to Improve Accuracy of Phenotype Normalizations by Large Language Models

Created by
  • Haebom
Category
Empty

저자

Daniel B. Hier, Thanh Son Do, Tayo Obafemi-Ajayi

개요

본 논문은 BioBERT의 문맥적 단어 임베딩을 사용하여 Human Phenotype Ontology(HPO)에서 후보 일치 항목을 검색하는 단순화된 검색기를 제시합니다. 이 검색기는 명시적인 용어 정의 없이도 대규모 언어 모델(LLM)의 표현형 용어 정규화 작업 정확도를 향상시킵니다. OMIM의 임상 요약에서 파생된 용어를 사용한 테스트 결과, 최첨단 LLM의 정규화 정확도가 검색기 증강 없이 62.3%에서 90.3%로 증가함을 보여줍니다. 이 방법은 다른 생의학 용어 정규화 작업에도 일반화될 수 있으며, 더 복잡한 검색 방법에 대한 효율적인 대안을 제공합니다.

시사점, 한계점

시사점:
BioBERT 기반의 단순화된 검색기를 이용하여 LLM의 표현형 용어 정규화 정확도를 크게 향상시킬 수 있음을 보여줌.
명시적인 용어 정의 없이도 높은 정확도를 달성하여 효율성을 높임.
다른 생의학 용어 정규화 작업에도 적용 가능성이 높음.
한계점:
OMIM 데이터셋에만 국한된 실험 결과로 일반화 가능성에 대한 추가적인 연구가 필요함.
사용된 BioBERT 모델의 성능에 의존적일 수 있음.
다른 ontology나 용어 집합에 대한 적용성 검증 필요.
👍