Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Measuring Faithfulness and Abstention: An Automated Pipeline for Evaluating LLM-Generated 3-ply Case-Based Legal Arguments

Created by
  • Haebom

저자

Li Zhang, Morgan Gray, Jaromir Savelka, Kevin D. Ashley

개요

본 논문은 대규모 언어 모델(LLM)이 법률적 주장 생성과 같은 복잡한 법적 과제에서 잠재력을 보이지만, 신뢰성이 여전히 문제임을 지적한다. LLM이 인간 평가를 통해 생성한 3단 논증(3-ply legal arguments)을 평가하는 초기 연구를 기반으로, 본 논문은 이 작업에 대한 LLM 성능을 자동화된 파이프라인을 통해 평가하는 방법을 제시한다. 특히, 신뢰성(환각 부재), 요소 활용, 적절한 자제에 중점을 둔다. 환각은 입력 사례 자료에 없는 요소를 생성하는 것으로, 자제는 지시를 받았을 때 사실적 근거가 없으면 주장 생성을 삼가는 모델의 능력으로 정의된다. 자동화된 방법은 외부 LLM을 사용하여 생성된 주장에서 요소를 추출하고, 입력 사례 3개(현재 사례 및 두 개의 선례 사례)에서 제공된 실제 요소와 비교한다. 난이도가 증가하는 세 가지 테스트(1. 표준 3단 논증 생성, 2. 선례 역할이 바뀐 논증 생성, 3. 공통 요소 부족으로 인한 논증 생성 불가능 인식 및 자제)를 통해 8개의 LLM을 평가했다. 결과는 현재 LLM이 가능한 논증 생성 테스트(테스트 1&2)에서 환각을 피하는 데 높은 정확도(90% 이상)를 달성하지만, 사례에 있는 관련 요소 전체 집합을 활용하지 못하는 경우가 많음을 보여준다. 중요하게도, 자제 테스트(테스트 3)에서 대부분의 모델은 중단하라는 지시를 따르지 못하고, 공통 요소가 없음에도 불구하고 허위 주장을 생성했다. 이 자동화된 파이프라인은 이러한 중요한 LLM 동작을 평가하는 확장 가능한 방법을 제공하며, 법적 환경에서 신뢰할 수 있게 배포하기 전에 요소 활용 및 강력한 자제 기능 개선의 필요성을 강조한다.

시사점, 한계점

시사점:
LLM의 법률적 주장 생성 능력 평가를 위한 자동화된 파이프라인 제시
LLM의 환각, 요소 활용, 자제 능력에 대한 정량적 평가 제공
법률 분야에서 LLM 활용을 위한 신뢰성 향상 방향 제시 (요소 활용 및 자제 기능 개선)
확장 가능한 평가 방법으로 향후 연구에 기여
한계점:
현재 파이프라인은 3단 논증 생성에 특화되어 다른 유형의 법률적 주장에는 적용이 어려울 수 있음
외부 LLM의 성능에 따라 평가 결과의 정확성이 영향받을 수 있음
평가에 사용된 LLM의 종류와 버전이 제한적임
인간 평가와의 비교 분석이 부족함
👍