본 논문은 다수의 대규모 언어 모델(LLM) 에이전트가 상호 작용하는 상황에서 자원 낭비적인 제재(costly sanctioning)의 역할을 연구합니다. 행동 경제학의 공공재 게임(public goods game)을 LLM 에이전트 시스템에 적용하여, 반복적인 상호 작용에서 LLM들이 사회적 딜레마를 어떻게 탐색하는지 관찰합니다. 분석 결과, LLM들은 협력 수준을 지속적으로 유지하는 그룹, 협력과 비협력을 반복하는 그룹, 시간이 지남에 따라 협력이 감소하는 그룹, 결과와 상관없이 고정된 전략을 따르는 그룹 등 네 가지 행동 패턴을 보이는 것으로 나타났습니다. 놀랍게도, o1 시리즈와 같은 추론 능력이 뛰어난 LLM이 협력에 어려움을 겪는 반면, 일부 기존 LLM은 일관되게 높은 수준의 협력을 달성했습니다. 이는 추론 능력 향상에 초점을 맞춘 기존의 LLM 개선 방식이 협력으로 이어지지 않을 수 있음을 시사합니다.