LegalCore: A Dataset for Event Coreference Resolution in Legal Documents
Created by
Haebom
Category
Empty
저자
Kangda Wei, Xi Shi, Jonathan Tong, Sai Ramana Reddy, Anandhavelu Natarajan, Rajiv Jain, Aparna Garimella, Ruihong Huang
개요
본 논문은 법률 영역의 사건 공참조 해결을 위한 최초의 데이터셋인 LegalCore를 제시합니다. 뉴스 기사에 비해 훨씬 긴 법률 계약서(평균 25,000 토큰)를 대상으로, 사건 및 사건 공참조 정보를 포괄적으로 주석 처리했습니다. LegalCore는 밀집된 사건 언급과 단거리 및 초장거리 공참조 링크를 특징으로 합니다. 본 논문에서는 주요 대규모 언어 모델(LLM)들을 LegalCore 데이터셋을 이용하여 사건 탐지 및 사건 공참조 해결 작업에 대해 벤치마킹하고, 최첨단 오픈소스 및 독점 LLM들이 지도 학습 기준 모델보다 성능이 현저히 떨어짐을 보여줍니다. 데이터셋과 코드를 공개할 예정입니다.
시사점, 한계점
•
시사점: 법률 영역의 사건 공참조 해결을 위한 최초의 대규모 주석 데이터셋 제공. LLM의 법률 문서 이해 능력의 한계를 밝힘. 향후 법률 AI 연구에 중요한 기여. 데이터셋과 코드 공개를 통한 연구 재현성 및 확장성 확보.
•
한계점: 현재까지 LegalCore 데이터셋의 규모가 제한적일 수 있음. 다양한 유형의 법률 문서를 포함하지 않을 수 있음. LLM 성능 평가에 사용된 지도 학습 기준 모델의 성능이 향후 개선될 가능성 존재.