Sign In

Better Call CLAUSE: A Discrepancy Benchmark for Auditing LLMs Legal Reasoning Capabilities

Created by
  • Haebom
Category
Empty

저자

Manan Roy Choudhury, Adithya Chandramouli, Mannan Anand, Vivek Gupta

개요

본 논문은 대규모 언어 모델(LLM)이 고위험 법률 업무에 통합되면서 발생하는 문제점을 해결하기 위해, LLM의 법적 추론의 취약성을 평가하는 최초의 벤치마크인 CLAUSE를 소개한다. CUAD 및 ContractNLI와 같은 데이터셋에서 파생된 7500개 이상의 실제 계약서를 변형하여 생성된 10가지 범주의 이상 현상을 통해 LLM의 미세한 불일치 감지 및 추론 능력을 연구한다. Retrieval-Augmented Generation (RAG) 시스템을 사용하여 법적 정확성을 보장하고 주요 LLM의 내재된 법적 결함 감지 및 설명 능력을 평가한다.

시사점, 한계점

시사점:
CLAUSE 벤치마크를 통해 LLM의 법적 추론 능력의 취약성을 체계적으로 평가할 수 있는 기반을 마련함.
LLM이 미묘한 오류를 간과하고, 그 이유를 법적으로 정당화하는 데 어려움을 겪는다는 점을 발견함.
법률 AI에서 이러한 추론 실패를 식별하고 수정하는 방안을 제시함.
한계점:
제시된 벤치마크가 실제 법적 환경의 모든 복잡성을 완벽하게 반영하지 못할 수 있음.
평가 대상 LLM의 종류가 제한적일 수 있음.
이상 현상 생성 및 법적 정확성 검증 과정에 주관성이 개입될 가능성이 있음.
👍