Sign In

Automatic Legal Writing Evaluation of LLMs

Created by
  • Haebom
Category
Empty

저자

Ramon Pires, Roseval Malaquias Junior, Rodrigo Nogueira

개요

본 논문은 법률 분야에서의 대규모 언어 모델(LLM) 평가를 위한 새로운 벤치마크인 oab-bench를 소개합니다. 브라질 변호사 시험 문제 105개를 바탕으로 구성된 oab-bench는 7개 법률 분야를 다루며, 인간 평가자의 평가 기준과 참고 자료를 포함하여 일관된 채점을 보장합니다. 논문에서는 네 개의 LLM을 oab-bench로 평가하여 Claude-3.5 Sonnet이 가장 우수한 성능(평균 7.93점/10점, 21개 시험 모두 통과)을 보임을 확인했습니다. 또한, LLM이 법률 글쓰기 평가에 대한 신뢰할 수 있는 자동 평가자 역할을 할 수 있는지 조사하여 OpenAI의 o1과 같은 최첨단 모델이 인간 점수와 높은 상관관계를 보임을 밝혔습니다. 소스 코드와 벤치마크 데이터(문제, 평가 지침, 모델 생성 응답, 자동 평가 결과 포함)는 공개적으로 이용 가능합니다.

시사점, 한계점

시사점:
법률 분야 LLM 평가를 위한 공개적이고, 자주 업데이트되며, 종합적인 평가 지침을 포함하는 새로운 벤치마크 oab-bench 제시.
Claude-3.5 Sonnet을 포함한 LLM의 법률 문제 해결 능력에 대한 실증적 분석 결과 제공.
LLM이 법률 글쓰기의 자동 평가 도구로 활용될 가능성 제시.
연구 데이터 및 소스 코드의 공개를 통한 후속 연구 및 발전 촉진.
한계점:
브라질 변호사 시험에 기반한 벤치마크이므로, 다른 법률 시스템이나 국가에 대한 일반화 가능성은 제한적일 수 있음.
평가 대상 LLM이 제한적이며, 더 다양한 모델에 대한 평가가 필요함.
법률 글쓰기 평가의 본질적인 주관성으로 인해 자동 평가의 신뢰성에 대한 추가적인 연구가 필요함.
👍