본 논문은 'ilm al-mawarith(이슬람 상속법)에 대한 대규모 언어 모델(LLM)의 지식 및 추론 능력을 평가한다. 다양한 상속 시나리오를 다루는 1,000개의 객관식 질문 벤치마크를 사용하여 7개의 LLM(o3, Gemini 2.5, ALLaM, Fanar, LLaMA, Mistral 등)의 성능을 평가하였다. 이슬람 법학에서 규정된 상속 지분의 분배를 이해하고 계산하는 모델의 능력을 테스트하기 위해 설계되었다. 결과적으로 o3와 Gemini 2.5는 90% 이상의 정확도를 달성한 반면, ALLaM, Fanar, LLaMA, Mistral은 50% 미만의 정확도를 보였다. 이러한 차이는 추론 능력과 도메인 적응의 중요한 차이를 반영한다. 상속 시나리오 오해, 법적 규칙의 잘못된 적용, 부족한 도메인 지식 등 모델 간의 반복적인 실패 패턴을 식별하기 위해 자세한 오류 분석을 실시하였다. 본 연구 결과는 구조화된 법적 추론 처리의 한계를 강조하고 이슬람 법적 추론 성능 향상을 위한 방향을 제시한다.