LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models

Created by

Haebom

저자

Brian Rabern, Philipp Mondorf, Barbara Plank

💡 개요

본 연구는 대규모 언어 모델(LLM)이 형식적 추론 능력을 진정으로 숙달했는지 파악하기 위한 새로운 벤치마크인 'LogicSkills'를 제안합니다. LogicSkills는 전칭 기호화, 반례 구성, 타당성 평가의 세 가지 핵심 논리 기술을 분리하여 평가하며, 이 모든 질문은 1차 논리의 두 변수 조각에서 파생되었습니다. 실험 결과, LLM은 타당성 평가에서는 높은 성능을 보였으나, 기호화 및 반례 구성에서는 성능이 현저히 낮아 표면적 패턴 의존성을 시사합니다.

🔑 시사점 및 한계

•

LLM의 형식적 추론 능력 중 특정 기술(기호화, 반례 구성)이 상대적으로 부족하며, 이는 진정한 규칙 기반 추론 능력보다는 패턴 매칭에 의존할 가능성을 보여줍니다.

•

LogicSkills 벤치마크는 LLM의 논리적 추론 능력을 보다 세분화되고 객관적으로 평가할 수 있는 새로운 표준을 제시합니다.

•

현재 벤치마크는 1차 논리의 특정 조각(두 변수, 항등 없음)에 국한되어 있어, 더 복잡하거나 다양한 형식적 추론을 평가하기 위해서는 확장될 필요가 있습니다.

PDF 보기

Made with Slashpage