Este artículo evaluó cuantitativamente el rendimiento de varios modelos lingüísticos a gran escala (LLM), tanto de código abierto como propietarios, aplicados a tareas seleccionadas del Examen del Agente Europeo de Patentes (EQE). Entre los modelos evaluados, incluyendo la familia GPT, Anthropic, Deepseek y Llama-3, el GPT-4 de OpenAI alcanzó la mayor precisión (0,82) y puntuación F1 (0,81), pero no alcanzó el rendimiento de nivel experto (0,90). AWS Llama 3.1 8B y Llama 3.1 8B, basado en Python, obtuvieron un rendimiento de simple conjetura. Los modelos también mostraron limitaciones en la integración y el formato de texto y gráficos, y las evaluaciones de expertos revelaron problemas de consistencia lógica, claridad y base legal. Los resultados del modelo fueron sensibles a los cambios de temperatura y a las expresiones rápidas, lo que sugiere la necesidad de supervisión experta.