본 논문은 대규모 언어 모델(LLM)이 생성하는 생물의학 지식의 사실 정확성을 평가하는 계산 접근 방식을 제시한다. LLM(ChatGPT 사용)을 이용하여 질병과 관련 약물, 증상, 유전자 간의 연관성을 생성하고, 생물의학 온톨로지의 의미 체계를 사용하여 이러한 연관성을 검증한다. 다양한 ChatGPT 모델(GPT-turbo, GPT-4 등)을 사용하여 실험을 진행하였으며, 질병 용어, 약물 이름, 유전 정보에 대한 높은 정확도(88%-98%)를 보였으나, 증상 용어 식별은 온톨로지의 형식적인 언어와 증상 설명의 비형식적인 특성 차이로 인해 정확도가 상대적으로 낮았다(49%-61%). 연관성 검증 결과, 질병-약물 및 질병-유전자 쌍에 대한 문헌 적중률은 89%-91%였으나, 증상 관련 연관성은 낮은 적중률(49%-62%)을 보였다.