본 연구는 대규모 언어 모델(LLM)의 추론 능력을 평가하는 데 중점을 둡니다. 단순한 언어적 과제 수행을 넘어 모델이 정보를 실제로 이해하고, 추론하며, 논리적이고 타당한 방식으로 결론을 도출하는지를 평가하는 것이 중요합니다. 이 연구는 GPT, Claude, DeepSeek, Gemini, Grok, Llama, Mistral, Perplexity, Sabi'a를 포함한 여러 LLM의 논리적 및 추상적 추론 능력을 8개의 맞춤형 추론 질문 세트를 사용하여 비교합니다. LLM의 성능은 동일한 작업에 대한 인간의 성능과 비교하여, LLM이 연역에 어려움을 겪는 영역을 파악합니다.