Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mapping Biomedical Ontology Terms to IDs: Effect of Domain Prevalence on Prediction Accuracy

Created by
  • Haebom

저자

Thanh Son Do, Daniel B. Hier, Tayo Obafemi-Ajayi

개요

본 연구는 대규모 언어 모델(LLM)이 Human Phenotype Ontology (HPO), Gene Ontology (GO), UniProtKB 용어에서 해당 온톨로지 ID로 생물의학 온톨로지 용어를 매핑하는 능력을 평가했습니다. PubMed Central (PMC) 데이터 세트의 온톨로지 ID 수를 생물의학 문헌에서의 빈도를 대신하여 사용하여 온톨로지 ID 빈도와 매핑 정확도 간의 관계를 조사했습니다. 그 결과 온톨로지 ID 빈도는 HPO 용어를 HPO ID로, GO 용어를 GO ID로, 단백질 이름을 UniProtKB 접근 번호로 매핑하는 정확도를 강력하게 예측한다는 것을 나타냅니다. 생물의학 문헌에서 온톨로지 ID의 빈도가 높을수록 매핑 정확도가 높았습니다. 수신기 조작 특성(ROC) 곡선을 기반으로 하는 예측 모델은 이러한 관계를 확인했습니다. 반대로, 이 패턴은 단백질 이름을 Human Genome Organisation(HUGO) 유전자 기호로 매핑하는 경우에는 적용되지 않았습니다. GPT-4는 단백질 이름을 HUGO 유전자 기호로 매핑하는 데 높은 기준 성능(95%)을 달성했으며, 매핑 정확도는 빈도의 영향을 받지 않았습니다. 문헌에서 HUGO 유전자 기호의 높은 빈도로 인해 이러한 기호가 어휘화되어 GPT-4가 단백질 이름을 HUGO 유전자 기호로 높은 정확도로 매핑할 수 있게 되었다는 가설을 제시합니다. 이러한 결과는 LLM이 빈도가 낮은 온톨로지 ID로 온톨로지 용어를 매핑하는 데 제한이 있음을 강조하고 생물의학 응용을 위한 LLM의 교육 및 평가에 온톨로지 ID 빈도를 통합하는 것이 중요함을 강조합니다.

시사점, 한계점

시사점: 생물의학 문헌에서 온톨로지 ID의 빈도가 LLM의 온톨로지 용어 매핑 정확도에 큰 영향을 미친다는 것을 밝혔습니다. 특히, 높은 빈도의 온톨로지 ID는 LLM의 정확도를 크게 향상시킬 수 있습니다. HUGO 유전자 기호의 경우처럼, 높은 빈도로 인한 어휘화는 LLM의 성능에 긍정적인 영향을 미칠 수 있습니다.
한계점: LLM이 빈도가 낮은 온톨로지 ID를 가진 용어를 매핑하는 데 어려움을 겪는다는 것을 보여줍니다. 이러한 한계를 극복하기 위한 추가적인 연구가 필요합니다. 또한, 본 연구는 특정 LLM(GPT-4)과 특정 온톨로지에 집중되어 있으므로, 다른 LLM이나 온톨로지에 대한 일반화 가능성은 제한적일 수 있습니다. HUGO gene symbol의 경우 높은 빈도로 인한 어휘화 현상이 LLM 성능에 미치는 영향에 대한 추가적인 분석이 필요합니다.
👍