Cet article examine de manière critique l'hypothèse selon laquelle les modèles de langage à grande échelle (MLH), tels que ChatGPT, peuvent remplacer les participants humains dans la recherche psychologique. Nous présentons des arguments conceptuels à l'appui de l'hypothèse selon laquelle les LMH simulent la psychologie humaine et fournissons des preuves empiriques à l'aide de plusieurs LMH, dont le modèle CENTAUR, spécifiquement adapté aux réponses psychologiques. Nous démontrons que des différences significatives apparaissent entre les LMH et les réponses humaines lorsque de subtils changements de mots entraînent d'importants changements sémantiques, et que différents LMH présentent des réponses très différentes à de nouveaux éléments, démontrant ainsi leur manque de fiabilité. En conclusion, nous soutenons que les LMH ne simulent pas la psychologie humaine et que les chercheurs en psychologie devraient les considérer comme des outils utiles, mais fondamentalement peu fiables, nécessitant une validation par rapport aux réponses humaines pour toute nouvelle application.