[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LEXam: Benchmarking Legal Reasoning on 340 Law Exams

Created by
  • Haebom

저자

Yu Fan, Jingwei Ni, Jakob Merane, Etienne Salimbeni, Yang Tian, Yoan Hermstruwer, Yinya Huang, Mubashara Akhtar, Florian Geering, Oliver Dreyer, Daniel Brunner, Markus Leippold, Mrinmaya Sachan, Alexander Stremitzer, Christoph Engel, Elliott Ash, Joel Niklaus

개요

LEXam은 116개 법학과목, 340개 법학 시험으로 구성된 새로운 벤치마크입니다. 영어와 독일어로 된 4,886개의 법학 시험 문제 (장문형 주관식 2,841개, 객관식 2,045개)를 포함하며, 주관식 문제에는 쟁점 발견, 규칙 상기, 규칙 적용 등 기대되는 법적 추론 접근 방식을 설명하는 명시적 지침이 함께 제공됩니다. 현재 LLMs는, 특히 구조화된 다단계 법적 추론이 필요한 주관식 질문에서 어려움을 겪는다는 것을 보여줍니다. LLM-as-a-Judge 패러다임과 엄격한 전문가 검증을 통해 모델 생성 추론 단계를 일관되고 정확하게 평가하는 확장 가능한 방법을 제공합니다. 단순 정확도 측정을 넘어 법적 추론 품질을 평가하는 데 효과적입니다.

시사점, 한계점

시사점:
다양한 법학 과목과 난이도를 포괄하는 대규모 법학 시험 데이터셋 LEXam을 제공합니다.
LLMs의 법적 추론 능력, 특히 다단계 추론 능력 평가에 유용한 벤치마크입니다.
LLM-as-a-Judge 패러다임과 전문가 검증을 통한 정확하고 확장 가능한 평가 방법을 제시합니다.
단순 정확도를 넘어 법적 추론 과정의 질적 평가를 가능하게 합니다.
모델 성능 간의 차이를 효과적으로 구별하는 데 유용합니다.
한계점:
현재 영어와 독일어로만 구성되어 다국어 지원에 한계가 있습니다.
데이터셋의 법률 시스템 특수성으로 인해 다른 법률 시스템에 대한 일반화 가능성에 대한 검토가 필요합니다.
LLM-as-a-Judge 방식의 주관적인 평가 요소가 존재할 수 있습니다.
법적 추론의 복잡성을 완벽히 반영하지 못할 가능성이 있습니다.
👍