본 논문은 대규모 언어 모델(LLM)의 유추 능력을 인간의 유추 능력과 비교 분석한 연구이다. 기존 연구들이 LLM의 전반적인 정확도에만 초점을 맞춘 것과 달리, 본 연구는 이야기 기반 유추 과제를 통해 개별 유추 과정에서의 LLM 추론 능력을 세밀하게 평가했다. LLM의 유추 표현 방식을 문장 임베딩을 이용하여 분석하고, 명시적인 설명 프롬프트가 LLM의 유추 능력에 미치는 영향을 조사했다. 모델 크기(8B vs. 70B parameters)와 GPT-4, LLaMA3 등 최첨단 모델 아키텍처의 성능 차이도 비교 분석하였다. 이는 LLM의 유추 능력에 대한 이해를 심화시키고, 인간 추론 모델로서의 LLM의 잠재력을 평가하는 데 기여한다.