본 논문은 다양한 오픈소스 및 독점형 대규모 언어 모델(LLM)들을 유럽 특허 변호사 시험(EQE)의 일부 과제에 적용하여 정량적 성능을 평가한 연구이다. GPT 계열, Anthropic, Deepseek, Llama-3 등의 모델들을 평가한 결과, OpenAI의 GPT-4가 가장 높은 정확도(0.82)와 F1 점수(0.81)를 기록했지만, 전문가 수준의 합격 기준(0.90)에는 미치지 못했다. AWS Llama 3.1 8B와 Python으로 배포된 Llama 3.1 8B는 단순 추측 수준의 정확도(0.50, 0.55)를 보였다. 모델 출력은 온도 변화와 프롬프트 표현에 민감하게 반응했으며, 전문가 평가에서는 정답의 정확성보다 명확성과 법적 근거에 대한 평가가 중요하게 작용했다. 결론적으로, 최신 LLM의 성능이 뛰어나지만 일반 대중의 기대치보다 현실적인 수준은 낮으며, 가상 특허 변호사 개발에는 상당한 시간이 필요하다는 점을 시사한다.