본 논문은 대규모 언어 모델(LLM)의 전략적 추론 능력 평가를 위한 새로운 벤치마크인 TMGBench를 제안한다. 기존 연구의 한계인 제한적인 게임 유형, 데이터 유출 위험, 확장성 부족 문제를 해결하기 위해, TMGBench는 로빈슨-고포스 위상학에 기반한 144가지 2x2 게임 유형을 포함하고, 각 게임에 다양한 시나리오(스토리 기반 게임)를 제공한다. 또한, 순차적, 병렬적, 중첩적 구조를 통해 게임들을 복잡하게 구성하여, 점점 강력해지는 LLM을 지속적으로 평가할 수 있는 확장 가능한 프레임워크를 제공한다. 실험 결과, 최신 LLM들도 전략적 추론의 정확성과 일관성, Theory-of-Mind 능력에서 여전히 결함을 가지고 있으며, 복잡한 게임 구조에서도 어려움을 겪는다는 것을 보여준다.