본 논문은 대규모 언어 모델(LLM)을 이용하여 연구 주제 간의 의미 관계를 자동으로 식별하는 방법을 분석합니다. IEEE Thesaurus를 기반으로 한 골드 스탠다드를 사용하여 '상위', '하위', '동일', '기타' 네 가지 관계 유형을 식별하는 과제에 대해 17개의 LLM을 평가했습니다. 모델의 크기, 접근성(오픈 소스 vs. 독점), 모델 유형(전체 vs. 양자화) 등을 고려하여 평가했으며, 네 가지 제로샷 추론 전략도 평가했습니다. Mixtral-8x7B, Dolphin-Mistral-7B, Claude 3 Sonnet 등 여러 모델이 뛰어난 성능(F1-score 0.847, 0.920, 0.967)을 보였으며, 프롬프트 엔지니어링을 통해 최적화된 소규모 양자화 모델이 대규모 독점 모델과 비슷한 성능을 보이는 것을 확인했습니다. 이는 연구 주제 온톨로지 생성 자동화에 대한 가능성을 보여줍니다.