Bài báo này nghiên cứu vai trò của việc xử phạt tốn kém trong tương tác của nhiều tác nhân mô hình ngôn ngữ quy mô lớn (LLM). Bằng cách áp dụng trò chơi hàng hóa công cộng của kinh tế học hành vi vào hệ thống tác nhân LLM, chúng tôi quan sát cách LLM điều hướng các tình huống khó xử xã hội trong các tương tác lặp lại. Phân tích của chúng tôi cho thấy LLM thể hiện bốn mô hình hành vi: các nhóm duy trì mức độ hợp tác không đổi, các nhóm xen kẽ giữa hợp tác và không hợp tác, các nhóm có mức độ hợp tác giảm dần theo thời gian và các nhóm tuân theo các chiến lược cố định bất kể kết quả. Đáng ngạc nhiên là, trong khi các LLM có khả năng lập luận cao, chẳng hạn như nhóm o1, gặp khó khăn trong việc hợp tác, thì một số LLM hiện tại lại luôn đạt được mức độ hợp tác cao. Điều này cho thấy các phương pháp cải tiến LLM hiện có tập trung vào việc cải thiện khả năng lập luận có thể không dẫn đến sự hợp tác.