LP-Eval: Rubric and Dataset for Measuring the Quality of Legal Proposition Generation

작성자

Haebom

카테고리

Empty

저자

Shanshan Xu, Johan Lindholm, Amogh Raina, Henrik Palmer Olsen, Daniel Hershcovich

💡 개요

본 논문은 유럽 연합 사법 재판소 판결문을 바탕으로 대규모 언어 모델(LLM)을 활용하여 법률 명제 생성의 품질을 측정하기 위한 새로운 평가 루브릭과 데이터셋인 LP-Eval을 제안합니다. LP-Eval은 법률 전문가와 공동 설계된 3단계 평가 루브릭을 통해 법률 명제의 형식적 타당성과 실질적 차원을 평가하며, 이를 바탕으로 생성된 LLM 명제에 대한 전문가 주석 데이터셋을 공개합니다. 연구 결과, LLM이 대체로 잘 구성되고 높은 품질의 법률 명제를 생성할 수 있음을 보여주며, 전문가 평가는 최신 판결보다는 확립된 판례에서 도출된 명제가 더 높은 품질을 갖는다는 점을 밝힙니다.

🔑 시사점 및 한계

•

LLM을 활용한 법률 명제 생성은 상당한 품질을 달성할 수 있으며, 법률 NLP 분야의 발전에 기여할 수 있습니다.

•

제안된 LP-Eval 루브릭은 법률 명제 품질을 다각적으로 평가하는 데 유용하며, 법률 전문가와의 협력을 통해 실제적인 평가 기준을 마련했습니다.

•

LLM이 평가자로서 기능할 수 있지만, 인간 전문가의 미묘한 판단을 포착하는 데는 한계가 있어 향후 LLM 평가 능력 향상 및 인간과 LLM 간 평가 협업 방안 모색이 필요합니다.

PDF 보기

Made with Slashpage