Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ContractEval: Benchmarking LLMs for Clause-Level Legal Risk Identification in Commercial Contracts

Created by
  • Haebom

저자

Shuang Liu, Zelong Li, Ruoyun Ma, Haiyan Zhao, Mengnan Du

개요

본 논문은 오픈소스 대형 언어 모델(LLM)이 상용 계약서에서 조항 수준의 법적 위험을 식별하는 능력을 평가하기 위한 첫 번째 벤치마크인 ContractEval을 소개합니다. Contract Understanding Atticus Dataset (CUAD)을 사용하여 4개의 독점 LLM과 15개의 오픈소스 LLM을 평가한 결과, 독점 모델이 오픈소스 모델보다 정확성과 효과성 면에서 우수하지만, 특정 부분에서는 일부 오픈소스 모델이 경쟁력을 보임을 확인했습니다. 또한, 오픈소스 모델의 크기가 커질수록 성능이 향상되지만 그 개선폭은 감소하며, 추론 모드는 효과성을 높이지만 정확성을 떨어뜨리고, 오픈소스 모델은 관련 조항이 존재함에도 불구하고 "관련 조항 없음"으로 응답하는 경향이 있으며, 모델 양자화는 추론 속도를 높이지만 성능 저하를 초래하는 것을 확인했습니다. 결론적으로 대부분의 LLM이 법률 보조 직원 수준의 성능을 보이지만, 오픈소스 모델은 고위험 법률 환경에서 정확성과 효과성을 보장하기 위해 목표 지향적인 미세 조정이 필요하며, ContractEval은 향후 법률 영역 LLM 개발을 위한 견고한 벤치마크를 제공합니다.

시사점, 한계점

시사점:
ContractEval 벤치마크를 통해 오픈소스 및 독점 LLM의 법률 위험 분석 성능을 비교 평가할 수 있음.
오픈소스 LLM의 성능 향상을 위한 방향 제시 (크기 증가, 미세 조정 등).
LLM의 추론 모드 사용에 따른 정확성과 효과성의 상충 관계 확인.
법률 영역 LLM 개발을 위한 객관적인 평가 기준 제시.
한계점:
CUAD 데이터셋에 의존적인 결과.
평가 대상 LLM의 종류 및 버전 제한.
오픈소스 모델의 "관련 조항 없음" 응답에 대한 원인 분석 부족.
모델 양자화에 따른 성능 저하에 대한 심층적인 분석 부족.
👍