본 논문은 ChatGPT와 같은 대규모 언어 모델(LLM)이 심리학 연구에서 인간 참여자를 대체할 수 있다는 주장에 대해 비판적으로 검토한다. LLM이 인간 심리를 시뮬레이션한다는 가설에 대한 개념적 논거를 제시하고, 의미 변화에 따른 LLM과 인간 응답 간의 차이를 실증적으로 보여줌으로써 이를 뒷받침한다. 특히, 심리학적 반응에 대해 미세 조정된 CENTAUR 모델을 포함한 여러 LLM에서 새로운 항목에 대한 응답이 상이함을 보여주며, LLM의 신뢰성 부족을 강조한다. 따라서 LLM은 유용한 도구이지만, 모든 새로운 응용 분야에서 인간의 반응으로 검증되어야 하는 근본적으로 신뢰할 수 없는 도구로 취급되어야 한다고 결론짓는다.