본 논문은 ChatGPT와 같은 대규모 언어 모델(LLM)이 심리학 연구에서 인간 참가자를 대체할 수 있다는 주장에 대해 비판적으로 검토한다. LLM이 인간 심리를 시뮬레이션한다는 가설에 대한 개념적 논거를 제시하고, 심리학적 반응에 특별히 미세 조정된 CENTAUR 모델을 포함한 여러 LLM을 사용하여 경험적 증거를 제시한다. 단어의 미세한 변화가 의미에 큰 변화를 초래할 때 LLM과 인간의 반응 사이에 상당한 차이가 발생하며, 다른 LLM은 새로운 항목에 대해 매우 다른 반응을 보이는 것을 보여줌으로써 LLM의 신뢰성 부족을 입증한다. 결론적으로 LLM은 인간 심리를 시뮬레이션하지 않으며, 심리학 연구자는 LLM을 유용하지만 근본적으로 신뢰할 수 없는 도구로 간주하고 모든 새로운 응용 분야에서 인간의 반응과 검증해야 한다고 주장한다.