본 논문은 다양한 오픈소스 및 독점형 대규모 언어 모델(LLM)들을 유럽 특허 변호사 시험(EQE)의 일부 과제에 적용하여 정량적 성능을 평가한 연구이다. GPT 계열, Anthropic, Deepseek, Llama-3 등 여러 모델들을 평가한 결과, OpenAI의 GPT-4가 가장 높은 정확도(0.82)와 F1 점수(0.81)를 기록하였으나, 전문가 수준(0.90)에는 미치지 못했다. AWS Llama 3.1 8B와 Python으로 배포된 Llama 3.1 8B는 단순 추측 수준의 성능을 보였다. 모델들은 텍스트와 그래픽 통합, 서식 유지 등에서도 한계를 드러냈으며, 전문가 평가에서도 논리적 일관성, 명확성, 법적 근거 부족 등의 문제점이 드러났다. 모델 출력은 온도 변화나 프롬프트 표현에 민감하게 반응하여 전문가 감독의 필요성을 시사했다.