본 논문은 오픈소스 대형 언어 모델(LLM)이 상용 계약서에서 조항 수준의 법적 위험을 식별하는 능력을 평가하기 위한 첫 번째 벤치마크인 ContractEval을 소개합니다. Contract Understanding Atticus Dataset (CUAD)을 사용하여 4개의 독점 LLM과 15개의 오픈소스 LLM을 평가한 결과, 독점 모델이 오픈소스 모델보다 정확성과 효과성 면에서 우수하지만, 특정 부분에서는 일부 오픈소스 모델이 경쟁력을 보임을 확인했습니다. 또한, 오픈소스 모델의 크기가 커질수록 성능이 향상되지만 그 개선폭은 감소하며, 추론 모드는 효과성을 높이지만 정확성을 떨어뜨리고, 오픈소스 모델은 관련 조항이 존재함에도 불구하고 "관련 조항 없음"으로 응답하는 경향이 있으며, 모델 양자화는 추론 속도를 높이지만 성능 저하를 초래하는 것을 확인했습니다. 결론적으로 대부분의 LLM이 법률 보조 직원 수준의 성능을 보이지만, 오픈소스 모델은 고위험 법률 환경에서 정확성과 효과성을 보장하기 위해 목표 지향적인 미세 조정이 필요하며, ContractEval은 향후 법률 영역 LLM 개발을 위한 견고한 벤치마크를 제공합니다.