본 연구는 대규모 언어 모델(LLM)을 의료 분야에 통합하여 진단 정확도를 높이고 치료 계획을 지원하는 가능성을 평가한 연구입니다. 다양한 오픈소스 및 클로즈드소스 LLM들을 2024년 포르투갈 의학 전문의 시험(PNA) 성적을 기준으로 평가하여 정확도와 비용 효율성을 비교 분석하였습니다. 일부 모델은 의대생의 평균 성적을 능가하는 결과를 보였으며, 정확도와 비용을 종합적으로 고려하여 우수 모델을 선정하고, Chain-of-Thought와 같은 추론 방법론의 영향과 LLM이 의료 전문가의 복잡한 임상 의사 결정을 지원하는 데 유용한 보완 도구로서 기능할 가능성을 제시합니다.