본 논문은 대규모 언어 모델(LLM) 기반 에이전트의 전략적 추론 능력, 특히 게임 이론적 환경에서의 능력을 평가한다. 세 가지 에이전트 디자인(단순 게임 이론 모델, LLM 단독 에이전트 모델, 기존 에이전트 프레임워크에 통합된 LLM)을 추측 게임을 통해 비교 분석하고, 인간 참가자와의 성능을 비교한다. 또한, 난독화된 게임 시나리오를 통해 일반화 능력을 평가한다. 25가지 에이전트 구성에 걸쳐 2000개 이상의 추론 샘플을 분석한 결과, 인간의 인지 구조를 모방한 설계가 LLM 에이전트의 인간 전략적 행동과의 일치성을 높일 수 있음을 보여준다. 하지만 에이전트 설계 복잡성과 인간과의 유사성 간의 관계는 비선형적이며, 기저 LLM의 능력에 크게 의존하고 단순한 구조적 증강의 한계를 시사한다.