본 연구는 Piatti 등이 제안한 자원 공유 시나리오에서 대규모 언어 모델(LLM)의 협력적 의사결정 능력을 평가하기 위한 시뮬레이션 프레임워크인 GovSim에 대한 연구 결과를 검증하고 확장합니다. GPT-4-turbo와 같은 대규모 모델과 소규모 모델의 성능 비교를 통해 기존 연구 결과를 검증하고, 보편화 원칙의 영향을 분석하여 대규모 모델은 이 원칙 유무에 관계없이 지속 가능한 협력을 달성하지만, 소규모 모델은 그렇지 않다는 것을 확인했습니다. 또한, DeepSeek-V3 및 GPT-4o-mini와 같은 추가 모델을 평가하여 다양한 아키텍처와 모델 크기에 걸쳐 협력적 행동이 일반화되는지 여부를 조사하고, 이종 다중 에이전트 환경, 일본어 지시어를 사용하는 시나리오, 그리고 에이전트가 유해한 자원 분배를 완화하기 위해 협력해야 하는 "역환경" 등 새로운 설정을 도입하여 GovSim 프레임워크의 적용 가능성을 다각적으로 탐구했습니다. 결과적으로, 제시된 벤치마크는 새로운 모델, 시나리오 및 언어에 적용될 수 있으며, 복잡한 협력적 작업에서 LLM의 적응성에 대한 귀중한 통찰력을 제공합니다. 특히, 이종 다중 에이전트 시스템 실험은 고성능 모델이 저성능 모델의 행동을 유사하게 변화시킬 수 있음을 보여주어, 계산 자원의 효율적인 사용 및 효과적인 협력적 AI 시스템 개발에 중요한 의미를 지닙니다.