본 논문은 대규모 언어 모델(LLM)이 고위험 법률 업무에 통합되면서 발생하는 문제점을 해결하기 위해, LLM의 법적 추론의 취약성을 평가하는 최초의 벤치마크인 CLAUSE를 소개한다. CUAD 및 ContractNLI와 같은 데이터셋에서 파생된 7500개 이상의 실제 계약서를 변형하여 생성된 10가지 범주의 이상 현상을 통해 LLM의 미세한 불일치 감지 및 추론 능력을 연구한다. Retrieval-Augmented Generation (RAG) 시스템을 사용하여 법적 정확성을 보장하고 주요 LLM의 내재된 법적 결함 감지 및 설명 능력을 평가한다.