Este artículo estudia el rol de las sanciones costosas en la interacción de múltiples agentes de modelos de lenguaje a gran escala (LLM). Aplicando el juego de bienes públicos de la economía del comportamiento al sistema de agentes LLM, observamos cómo los LLM abordan dilemas sociales en interacciones repetidas. Nuestro análisis revela que los LLM exhiben cuatro patrones de comportamiento: grupos que mantienen un nivel constante de cooperación, grupos que alternan entre cooperación y no cooperación, grupos cuya cooperación disminuye con el tiempo y grupos que siguen estrategias fijas independientemente del resultado. Sorprendentemente, mientras que los LLM con alta capacidad de razonamiento, como la serie o1, tienen dificultades para cooperar, algunos LLM existentes logran consistentemente altos niveles de cooperación. Esto sugiere que los enfoques actuales de mejora de los LLM que se centran en mejorar la capacidad de razonamiento podrían no conducir a la cooperación.