본 논문은 대규모 언어 모델(LLM)의 전략적 의사 결정 능력을 평가하기 위해 행동 게임 이론에 기반한 평가 프레임워크를 제시한다. 22개의 최첨단 LLM을 대상으로 테스트를 진행하여, GPT-o3-mini, GPT-o1, DeepSeek-R1이 대부분의 게임에서 우위를 점한다는 것을 발견했다. 또한, 모델 규모가 성능을 결정짓는 유일한 요소는 아니며, Chain-of-Thought (CoT) 프롬프팅이 모든 모델에 일관된 효과를 보이지 않음을 확인했다. 나아가, 모델 내에 내재된 편향성을 밝혀, 특정 인구 통계학적 특성이 의사 결정 패턴에 영향을 미치는 것을 관찰했다.