[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Ready Jurist One: Análisis comparativo de agentes lingüísticos para la inteligencia jurídica en entornos dinámicos

Created by
  • Haebom

Autor

Zheng Jia, Shengbin Yue, Wei Chen, Siyuan Wang, Yidong Liu, Yun Song, Zhongyu Wei

Describir

Para superar la brecha entre la naturaleza dinámica de la práctica jurídica real y los parámetros estáticos, este artículo presenta J1-ENVS, el primer entorno jurídico dinámico interactivo para agentes con LLM. Consiste en seis escenarios representativos de la práctica jurídica china en tres niveles de complejidad ambiental, guiados por expertos legales. También presentamos J1-EVAL, un marco de evaluación detallado diseñado para evaluar el desempeño de las tareas y el cumplimiento procesal en diferentes niveles de competencia jurídica. Experimentos exhaustivos con 17 agentes con LLM muestran que muchos modelos demuestran un sólido conocimiento jurídico, pero presentan dificultades con la ejecución procesal en entornos dinámicos. Incluso el modelo de vanguardia, GPT-4o, no alcanza el 60% de rendimiento general. Estos resultados resaltan los desafíos actuales para lograr inteligencia jurídica dinámica y brindan información valiosa para futuras investigaciones.

Takeaways, Limitations

Takeaways:
Presentación de un nuevo entorno de evaluación J1-ENVS y un marco de evaluación J1-EVAL que reflejan la dinámica de la práctica jurídica real.
Proporciona un análisis empírico del conocimiento legal y las capacidades de ejecución procesal de los agentes basados en LLM.
Desafíos para lograr una inteligencia jurídica dinámica y futuras direcciones de investigación.
Limitations:
El entorno de evaluación J1-ENVS está estructurado en función de la práctica jurídica china, lo que limita la generalización a otros sistemas legales.
El número de modelos evaluados está limitado a 17, y se necesita más investigación sobre modelos más diversos.
El rendimiento de los modelos de última generación, incluido GPT-4o, todavía está por debajo del 60%, lo que sugiere que se necesita más investigación y desarrollo para mejorar la inteligencia jurídica dinámica.
👍