JuDGE: Benchmarking Judgment Document Generation for Chinese Legal System
Created by
Haebom
Category
Empty
저자
Weihang Su, Baoqing Yue, Qingyao Ai, Yiran Hu, Jiaqi Li, Changyue Wang, Kaiyuan Zhang, Yueyue Wu, Yiqun Liu
개요
본 논문은 중국 법 체계에서 판결문 생성 성능을 평가하기 위한 새로운 벤치마크인 JuDGE (Judgment Document Generation Evaluation)를 소개합니다. 주어진 사건의 사실적 설명으로부터 완전한 법적 판결문을 생성하는 작업을 정의하고, 실제 법적 사례의 사실적 설명과 해당하는 완전한 판결문을 짝지은 포괄적인 데이터 세트를 구축했습니다. 판결문의 질을 평가하기 위한 기준 자료로 사용됩니다. 이 데이터 세트는 추가적인 법적 지식을 제공하는 두 개의 외부 법률 말뭉치(법령 및 규정, 과거 판결문 모음)로 확장되었습니다. 법 전문가와 협력하여 생성된 판결문의 질을 다양한 측면에서 평가하는 포괄적인 자동화된 평가 프레임워크를 구축했습니다. 일반 및 법률 영역 대규모 언어 모델을 사용하여 몇 번의 시도만으로 이루어지는 문맥 내 학습, 미세 조정 및 다중 소스 검색 증강 생성(RAG) 접근 방식을 포함한 다양한 기준 접근 방식을 평가했습니다. 실험 결과, RAG 접근 방식이 이 작업의 성능을 효과적으로 향상시킬 수 있지만, 여전히 상당한 개선의 여지가 있음을 보여줍니다. 모든 코드와 데이터 세트는 https://github.com/oneal2000/JuDGE 에서 이용 가능합니다.