Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¿Pueden los modelos de lenguaje grandes comprender y aplicar las regulaciones de patentes para aprobar un examen práctico de abogado de patentes?

Created by
  • Haebom

Autor

Bhakti Khera, Rezvan Alamian, Pascal A. Scherz, Stephan M. Goetz

Describir

Este artículo evaluó cuantitativamente el rendimiento de varios modelos lingüísticos a gran escala (LLM), tanto de código abierto como propietarios, aplicados a tareas seleccionadas del Examen del Agente Europeo de Patentes (EQE). Entre los modelos evaluados, incluyendo la familia GPT, Anthropic, Deepseek y Llama-3, el GPT-4 de OpenAI alcanzó la mayor precisión (0,82) y puntuación F1 (0,81), pero no alcanzó el rendimiento de nivel experto (0,90). AWS Llama 3.1 8B y Llama 3.1 8B, basado en Python, obtuvieron un rendimiento de simple conjetura. Los modelos también mostraron limitaciones en la integración y el formato de texto y gráficos, y las evaluaciones de expertos revelaron problemas de consistencia lógica, claridad y base legal. Los resultados del modelo fueron sensibles a los cambios de temperatura y a las expresiones rápidas, lo que sugiere la necesidad de supervisión experta.

Takeaways, Limitations

Takeaways: A pesar del excelente rendimiento de los programas de maestría en derecho (LLM) recientes, este estudio sugiere que las expectativas del público general podrían ser excesivamente altas. Al evaluar cuantitativamente la aplicabilidad de los LLM al ámbito jurídico, presentamos limitaciones realistas. Demostramos la capacidad superior de GPT-4 para integrar texto y gráficos. También demostramos la discrepancia entre las métricas de evaluación automatizadas y el criterio de expertos.
Limitations: La generalización es limitada debido al uso de solo un subconjunto de las pruebas utilizadas para la evaluación. No todos los LLM alcanzaron un rendimiento de nivel experto. El resultado del modelo es sensible a las indicaciones y a los ajustes de temperatura, lo que lo hace poco fiable. Se necesitan mejoras, como la consistencia lógica, una multimodalidad robusta y las indicaciones adaptativas. La tecnología actual requiere un avance tecnológico significativo para desarrollar un agente de patentes virtual completamente funcional.
👍