본 연구는 최첨단 대규모 언어 모델(LLM) 3종(GPT-4, Claude 3.5 Sonnet, DeepSeek v3)을 이용하여 상위 사회과학 저널의 심리학 실험 156개를 대규모로 재현하는 연구이다. LLM은 주효과에 대해서는 높은 재현율(73-81%)을 보였고, 상호작용 효과에도 중간에서 높은 성공률(46-63%)을 보였다. 그러나 LLM은 인간 연구보다 효과 크기가 2~3배 더 크게 나타났으며, 특히 인종, 성별, 윤리 등 사회적으로 민감한 주제를 다룬 연구에서는 재현율이 현저히 낮았다. 또한, 원 연구에서 무효 결과가 보고된 경우, LLM은 놀라울 정도로 높은 비율(68-83%)로 유의미한 결과를 생성했다. 이는 더 낮은 잡음으로 인한 것일 수 있지만, 효과 크기 과대 추정의 위험성도 시사한다. 결론적으로 LLM은 심리학 연구에서 효율적인 도구로서 가능성을 보이지만, 복잡한 사회 현상 및 문화적으로 민감한 연구 질문에는 더욱 세밀한 해석과 인간 검증이 필요함을 보여준다.