Este artículo evalúa las capacidades de razonamiento estratégico de agentes basados en modelos de lenguaje a gran escala (LLM), particularmente en situaciones de teoría de juegos. Se evalúan tres diseños de agentes (un modelo de teoría de juegos simple, un agente exclusivamente LLM y un LLM integrado en un marco de agente convencional) en un juego de adivinanzas y se comparan con participantes humanos. También se evalúa la generalización más allá de la distribución de entrenamiento utilizando escenarios de juego ofuscados. Analizando más de 2000 muestras de inferencia en 25 configuraciones de agentes, demostramos que los diseños que imitan la arquitectura cognitiva humana pueden mejorar la consistencia de los agentes LLM con el comportamiento estratégico humano. Sin embargo, observamos que la relación entre la complejidad del diseño del agente y la semejanza con el ser humano es no lineal y depende en gran medida del rendimiento del LLM subyacente y de las limitaciones del aumento estructural simple.