Bài báo này xem xét một cách phê phán tuyên bố rằng các mô hình ngôn ngữ quy mô lớn (LLM), chẳng hạn như ChatGPT, có thể thay thế con người trong nghiên cứu tâm lý. Chúng tôi trình bày một lập luận khái niệm cho giả thuyết rằng LLM mô phỏng tâm lý con người và ủng hộ giả thuyết này bằng thực nghiệm bằng cách chứng minh sự khác biệt giữa LLM và phản ứng của con người dựa trên những thay đổi về mặt ngữ nghĩa. Cụ thể, chúng tôi chứng minh rằng một số LLM, bao gồm cả mô hình CENTAUR được tinh chỉnh cho các phản ứng tâm lý, phản ứng khác nhau với các mục mới, làm nổi bật tính không đáng tin cậy của LLM. Do đó, chúng tôi kết luận rằng mặc dù LLM là những công cụ hữu ích, nhưng chúng nên được coi là những công cụ về cơ bản không đáng tin cậy và cần được kiểm chứng với phản ứng của con người trong bất kỳ ứng dụng mới nào.