본 연구는 대규모 언어 모델(LLM)이 Human Phenotype Ontology (HPO), Gene Ontology (GO), UniProtKB 용어에서 해당 온톨로지 ID로 생물의학 온톨로지 용어를 매핑하는 능력을 평가했습니다. PubMed Central (PMC) 데이터 세트의 온톨로지 ID 수를 생물의학 문헌에서의 빈도를 대신하여 사용하여 온톨로지 ID 빈도와 매핑 정확도 간의 관계를 조사했습니다. 그 결과 온톨로지 ID 빈도는 HPO 용어를 HPO ID로, GO 용어를 GO ID로, 단백질 이름을 UniProtKB 접근 번호로 매핑하는 정확도를 강력하게 예측한다는 것을 나타냅니다. 생물의학 문헌에서 온톨로지 ID의 빈도가 높을수록 매핑 정확도가 높았습니다. 수신기 조작 특성(ROC) 곡선을 기반으로 하는 예측 모델은 이러한 관계를 확인했습니다. 반대로, 이 패턴은 단백질 이름을 Human Genome Organisation(HUGO) 유전자 기호로 매핑하는 경우에는 적용되지 않았습니다. GPT-4는 단백질 이름을 HUGO 유전자 기호로 매핑하는 데 높은 기준 성능(95%)을 달성했으며, 매핑 정확도는 빈도의 영향을 받지 않았습니다. 문헌에서 HUGO 유전자 기호의 높은 빈도로 인해 이러한 기호가 어휘화되어 GPT-4가 단백질 이름을 HUGO 유전자 기호로 높은 정확도로 매핑할 수 있게 되었다는 가설을 제시합니다. 이러한 결과는 LLM이 빈도가 낮은 온톨로지 ID로 온톨로지 용어를 매핑하는 데 제한이 있음을 강조하고 생물의학 응용을 위한 LLM의 교육 및 평가에 온톨로지 ID 빈도를 통합하는 것이 중요함을 강조합니다.