[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Ready Jurist One : Analyse comparative des agents linguistiques pour l'intelligence juridique dans des environnements dynamiques

Created by
  • Haebom

Auteur

Zheng Jia, Shengbin Yue, Wei Chen, Siyuan Wang, Yidong Liu, Yun Song, Zhongyu Wei

Contour

Afin de combler le fossé entre la nature dynamique de la pratique juridique réelle et les repères statiques, cet article présente J1-ENVS, le premier environnement juridique dynamique interactif destiné aux agents titulaires d'un LLM. Il se compose de six scénarios représentatifs de la pratique juridique chinoise, couvrant trois niveaux de complexité environnementale, guidés par des experts juridiques. Nous présentons également J1-EVAL, un cadre d'évaluation précis conçu pour évaluer la performance des tâches et la conformité procédurale à différents niveaux de compétence juridique. Des expériences approfondies menées auprès de 17 agents LLM montrent que de nombreux modèles démontrent de solides connaissances juridiques, mais peinent à exécuter les procédures dans des environnements dynamiques. Même le modèle de pointe, GPT-4o, n'atteint pas 60 % de performance globale. Ces résultats mettent en évidence les défis actuels liés à la réalisation d'une intelligence juridique dynamique et fournissent des informations précieuses pour les recherches futures.

Takeaways, Limitations

Takeaways:
Présentation d'un nouvel environnement d'évaluation J1-ENVS et d'un cadre d'évaluation J1-EVAL qui reflètent la dynamique de la pratique juridique actuelle.
Fournit une analyse empirique des connaissances juridiques et des capacités d'exécution procédurale des agents basés sur le LLM.
Défis pour parvenir à une intelligence juridique dynamique et orientations de recherche futures.
Limitations:
L'environnement d'évaluation J1-ENVS est structuré sur la base de la pratique juridique chinoise, ce qui limite la généralisabilité à d'autres systèmes juridiques.
Le nombre de modèles évalués est limité à 17 et des recherches supplémentaires sur des modèles plus diversifiés sont nécessaires.
Les performances des modèles de pointe, dont le GPT-4o, sont encore inférieures à 60 %, ce qui suggère que des recherches et développements supplémentaires sont nécessaires pour améliorer l’intelligence juridique dynamique.
👍