본 논문은 전문 분야(예: 법률)에서 LLM이 생성한 추론 트레이스의 품질을 평가하는 것이 신뢰성과 설명 가능성을 확보하는 데 필수적이지만, 복잡성 때문에 여전히 어렵다는 점에 주목합니다. 이를 해결하기 위해, 저자들은 추론 트레이스 평가에 중점을 둔 대규모(24,000개 인스턴스) 전문가 수준의 법률 추론 데이터셋인 LEGIT (LEGal Issue Trees)를 소개합니다. LEGIT는 법원 판결을 양측 당사자의 주장과 법원의 결론으로 구성된 계층적 트리로 변환하며, 이는 추론 트레이스의 문제 범위와 정확성을 평가하는 데 활용됩니다. 인간 전문가의 주석과 덜 상세한 rubrics와의 비교를 통해 rubrics의 신뢰성을 검증합니다. LEGIT 데이터셋을 사용하여, LLM의 법률 추론 능력이 문제 범위와 정확성 모두에 의해 심각하게 영향을 받는다는 것을 보였습니다. 또한, RAG (Retrieval-Augmented Generation)와 rubrics를 사용한 RL (Reinforcement Learning)이 법률 추론 능력에 상호 보완적인 이점을 가져다주며, RAG는 전반적인 추론 능력을 향상시키고, RL은 정확성을 향상시키지만 범위는 감소한다는 것을 보여줍니다.