JuDGE: Benchmarking Judgment Document Generation for Chinese Legal System
Created by
Haebom
Category
Empty
저자
Weihang Su, Baoqing Yue, Qingyao Ai, Yiran Hu, Jiaqi Li, Changyue Wang, Kaiyuan Zhang, Yueyue Wu, Yiqun Liu
개요
본 논문은 중국 법 체계에서 판결문 생성 성능을 평가하기 위한 새로운 벤치마크인 JuDGE(Judgment Document Generation Evaluation)를 제시합니다. 주어진 사건의 사실적 설명으로부터 완전한 법적 판결문을 생성하는 작업으로 정의되며, 실제 법적 사건의 사실적 설명과 해당하는 완전한 판결문을 짝지어 구성된 포괄적인 데이터셋을 구축합니다. 이 데이터셋은 법령 및 규정으로 구성된 외부 법률 코퍼스와 과거 판결문의 대규모 컬렉션을 추가하여 더욱 확장되었습니다. 법 전문가와의 협력을 통해 생성된 판결문의 질을 다양한 측면에서 평가하는 포괄적인 자동 평가 프레임워크를 구축하였고, 몇 번의 학습, 미세 조정, 다중 소스 검색 증강 생성(RAG) 접근 방식을 포함한 다양한 기준 접근 방식을 일반 및 법률 영역의 거대 언어 모델(LLM)을 사용하여 평가했습니다. 실험 결과, RAG 접근 방식이 이 작업에서 성능을 효과적으로 향상시킬 수 있지만, 여전히 상당한 개선의 여지가 있음을 보여줍니다. 모든 코드와 데이터셋은 https://github.com/oneal2000/JuDGE 에서 사용 가능합니다.
시사점: 중국 법 체계에 특화된 판결문 생성 평가 벤치마크 JuDGE를 제시하고, 대규모 데이터셋과 자동 평가 프레임워크를 제공함으로써 관련 연구의 발전에 기여합니다. RAG 접근 방식의 효용성을 실험적으로 확인했습니다.
•
한계점: RAG 접근 방식을 포함한 현재의 방법론으로는 판결문 생성 작업에서 여전히 상당한 개선의 여지가 존재합니다. 데이터셋의 규모나 다양성에 대한 추가적인 논의가 필요할 수 있습니다. 중국 법 체계에 특화되어 있으므로 다른 법 체계에는 직접 적용하기 어려울 수 있습니다.