본 논문은 법률 분야에서 생성형 대형 언어 모델(LLM)의 활용 가능성을 다루면서, 현재 모델들의 취약하고 불명확한 추론 능력으로 인해 법률 및 증거 영역에의 안전한 적용이 어렵다는 점을 지적합니다. 이에 따라, 생성형 언어 모델의 추론 능력을 평가하기 위한 벤치마크 생성 방법을 제시합니다. 이 벤치마크는 동적으로 변화하며, 복잡성을 확장할 수 있고, 공식적으로 모호하지 않은 해석을 제공합니다. 증인 증언을 중심으로, 선형 및 비선형 논증 공격 그래프를 동적으로 생성하여 자연어로 표현된 추론 퍼즐로 변환하는 방식을 제시합니다. 실험 결과, 최첨단 LLM들도 저 복잡도의 퍼즐에서조차 자주 실패하며, 일관성 없는 성능을 보임으로써 추론 능력의 취약성을 드러냅니다. 고 복잡도에서는 추론 능력을 위해 특별히 고안된 최첨단 모델조차 실수를 저지릅니다. 결론적으로, 본 연구는 다양한 복잡도를 가진 매개변수화된 벤치마크를 사용하여 생성형 언어 모델의 추론 능력을 평가할 수 있음을 보여주며, 법률 분야에서 책임감 있는 AI 시스템 설계에 필수적인 생성형 모델의 추론 능력 한계에 대한 이해를 증진시킵니다.