Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Evaluating Legal Reasoning Traces with Legal Issue Tree Rubrics

Created by
  • Haebom
Category
Empty

저자

Jinu Lee, Kyoung-Woon On, Simeng Han, Arman Cohan, Julia Hockenmaier

LEGIT: 대규모 법률 문제 트리 데이터셋을 활용한 LLM 법률 추론 평가

개요

본 논문은 전문 분야(예: 법률)에서 LLM이 생성한 추론 트레이스의 품질을 평가하는 것이 신뢰성과 설명 가능성을 확보하는 데 필수적이지만, 복잡성 때문에 여전히 어렵다는 점에 주목합니다. 이를 해결하기 위해, 저자들은 추론 트레이스 평가에 중점을 둔 대규모(24,000개 인스턴스) 전문가 수준의 법률 추론 데이터셋인 LEGIT (LEGal Issue Trees)를 소개합니다. LEGIT는 법원 판결을 양측 당사자의 주장과 법원의 결론으로 구성된 계층적 트리로 변환하며, 이는 추론 트레이스의 문제 범위와 정확성을 평가하는 데 활용됩니다. 인간 전문가의 주석과 덜 상세한 rubrics와의 비교를 통해 rubrics의 신뢰성을 검증합니다. LEGIT 데이터셋을 사용하여, LLM의 법률 추론 능력이 문제 범위와 정확성 모두에 의해 심각하게 영향을 받는다는 것을 보였습니다. 또한, RAG (Retrieval-Augmented Generation)와 rubrics를 사용한 RL (Reinforcement Learning)이 법률 추론 능력에 상호 보완적인 이점을 가져다주며, RAG는 전반적인 추론 능력을 향상시키고, RL은 정확성을 향상시키지만 범위는 감소한다는 것을 보여줍니다.

시사점, 한계점

LLM의 법률 추론 능력은 문제 범위와 정확성에 의해 모두 영향을 받습니다.
RAG는 LLM의 전반적인 추론 능력을 향상시킵니다.
RL은 LLM의 정확성을 향상시키지만 문제 범위는 감소합니다.
LEGIT 데이터셋은 추론 트레이스 평가를 위한 새로운 rubric을 제공합니다.
논문은 RAG와 RL의 상호 보완적인 이점을 보여줍니다.
본 논문은 법률 분야에 한정되어 있으며, 다른 전문 분야로의 확장 가능성은 추가 연구가 필요합니다.
LEGIT 데이터셋의 rubric은 인간 전문가의 주석을 기반으로 하므로, 주관적인 요소가 개입될 가능성이 있습니다.
👍