본 논문은 대규모 언어 모델(LLM)이 실제 인간의 의사 결정을 얼마나 잘 모방하는지, 특히 게임 이론 실험에서 인간의 행동을 얼마나 정확하게 재현하는지 연구한다. 디지털 트윈을 개발하고 체계적인 프롬프트 및 프로빙 프레임워크를 도입하여 Llama, Mistral, Qwen 등 3개의 오픈 소스 모델을 테스트한 결과, Llama는 인간 협력 패턴을 높은 정확도로 재현하고, Qwen은 Nash 균형 예측과 일치하는 것으로 나타났다. 페르소나 기반 프롬프팅 없이 집단 수준의 행동을 재현했으며, 인간이 테스트한 게임 외에도 새로운 게임 설정을 생성하고 가설을 사전 등록하여 미지의 실험 공간을 탐구할 수 있는 가능성을 제시한다.