Cet article examine de manière critique l'hypothèse selon laquelle les modèles de langage à grande échelle (MLH), tels que ChatGPT, pourraient remplacer les participants humains dans la recherche psychologique. Nous présentons un argument conceptuel en faveur de l'hypothèse selon laquelle les LMH simulent la psychologie humaine et étayons empiriquement cette hypothèse en démontrant les divergences entre les LMH et les réponses humaines basées sur des changements sémantiques. Plus précisément, nous démontrons que plusieurs LMH, dont le modèle CENTAUR optimisé pour les réponses psychologiques, réagissent différemment aux nouveaux items, soulignant ainsi leur manque de fiabilité. Par conséquent, nous concluons que, bien que les LMH soient des outils utiles, ils doivent être considérés comme des outils fondamentalement peu fiables, devant être validés par rapport aux réponses humaines dans toute nouvelle application.