본 논문은 대규모 언어 모델(LLM)이 법률적 주장 생성과 같은 복잡한 법적 과제에서 잠재력을 보이지만, 신뢰성이 여전히 문제임을 지적한다. LLM이 인간 평가를 통해 생성한 3단 논증(3-ply legal arguments)을 평가하는 초기 연구를 기반으로, 본 논문은 이 작업에 대한 LLM 성능을 자동화된 파이프라인을 통해 평가하는 방법을 제시한다. 특히, 신뢰성(환각 부재), 요소 활용, 적절한 자제에 중점을 둔다. 환각은 입력 사례 자료에 없는 요소를 생성하는 것으로, 자제는 지시를 받았을 때 사실적 근거가 없으면 주장 생성을 삼가는 모델의 능력으로 정의된다. 자동화된 방법은 외부 LLM을 사용하여 생성된 주장에서 요소를 추출하고, 입력 사례 3개(현재 사례 및 두 개의 선례 사례)에서 제공된 실제 요소와 비교한다. 난이도가 증가하는 세 가지 테스트(1. 표준 3단 논증 생성, 2. 선례 역할이 바뀐 논증 생성, 3. 공통 요소 부족으로 인한 논증 생성 불가능 인식 및 자제)를 통해 8개의 LLM을 평가했다. 결과는 현재 LLM이 가능한 논증 생성 테스트(테스트 1&2)에서 환각을 피하는 데 높은 정확도(90% 이상)를 달성하지만, 사례에 있는 관련 요소 전체 집합을 활용하지 못하는 경우가 많음을 보여준다. 중요하게도, 자제 테스트(테스트 3)에서 대부분의 모델은 중단하라는 지시를 따르지 못하고, 공통 요소가 없음에도 불구하고 허위 주장을 생성했다. 이 자동화된 파이프라인은 이러한 중요한 LLM 동작을 평가하는 확장 가능한 방법을 제공하며, 법적 환경에서 신뢰할 수 있게 배포하기 전에 요소 활용 및 강력한 자제 기능 개선의 필요성을 강조한다.