Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LEXam: Benchmarking Legal Reasoning on 340 Law Exams

Created by
  • Haebom

저자

Yu Fan, Jingwei Ni, Jakob Merane, Yang Tian, Yoan Hermstruwer, Yinya Huang, Mubashara Akhtar, Etienne Salimbeni, Florian Geering, Oliver Dreyer, Daniel Brunner, Markus Leippold, Mrinmaya Sachan, Alexander Stremitzer, Christoph Engel, Elliott Ash, Joel Niklaus

개요

본 논문은 대규모 언어 모델(LLM)의 법적 추론 능력 향상을 위해 개발된 새로운 벤치마크 \textsc{LEXam}을 소개합니다. 이 벤치마크는 116개의 법학 과정에서 340개의 법 시험을 기반으로 하며, 영어와 독일어로 된 4,886개의 법 시험 문제(2,841개의 서술형 문제와 2,045개의 객관식 문제 포함)로 구성됩니다. 서술형 문제에는 문제 해결 접근 방식에 대한 지침과 참고 답변이 제공됩니다. LLM의 성능 평가 결과는 현재 모델들이 구조적이고 다단계의 법적 추론이 필요한 서술형 문제에 어려움을 겪고 있음을 보여줍니다. 또한, 모델 생성 추론 단계를 일관되고 정확하게 평가하는 앙상블 LLM 기반의 '판사' 패러다임을 제시하여, 법적 추론 품질을 평가하는 확장 가능한 방법을 제안합니다.

시사점, 한계점

시사점:
법적 추론 능력을 평가하기 위한 새로운 벤치마크 \textsc{LEXam} 개발
LLM이 구조적인 다단계 법적 추론에 어려움을 겪는다는 점을 밝힘
모델의 추론 단계를 평가하는 새로운 방법론 제시 (LLM-as-a-Judge)
다양한 모델의 성능 차이를 구별할 수 있는 벤치마크의 효과 입증
한계점:
논문에서 구체적인 한계점 언급 없음.
👍