본 논문은 폴란드 의사 면허 및 전문의 시험(LEK, LDEK, PES) 문제들을 기반으로 한 새로운 벤치마크 데이터셋을 제시합니다. 공개적으로 제공되는 자료에서 웹 스크래핑을 통해 24,000개 이상의 시험 문제를 수집하였으며, 일부는 폴란드어-영어 병렬 말뭉치로 구성되어 있습니다. 이 데이터셋을 사용하여 GPT-4o를 포함한 최신 LLMs의 성능을 평가하고 의대생의 성적과 비교 분석하였습니다. 분석 결과, GPT-4o는 인간 수준의 성능에 근접하지만, 다국어 번역 및 의학 분야 특수 지식 이해에는 여전히 어려움이 있음을 보였습니다. 이는 언어와 의료 전문 분야에 따라 모델 성능의 차이가 존재하며, 임상 현장에서 LLMs를 활용하는 데 있어 제한점과 윤리적 고려 사항을 강조합니다.