Cet article aborde le problème du « piratage des LLM », qui survient lors de l'utilisation de modèles linguistiques à grande échelle (LLM) dans la recherche en sciences sociales. L'annotation des données et l'analyse de texte à l'aide de LLM peuvent varier considérablement selon les choix de mise en œuvre du chercheur, tels que le choix du modèle, la stratégie d'invite et les paramètres de température. Cela peut entraîner des biais systématiques et des erreurs aléatoires, entraînant des erreurs de type I, II, S et M. Les chercheurs ont reproduit 37 tâches d'annotation de données issues de 21 articles de recherche en sciences sociales à l'aide de 18 modèles différents, analysé 13 millions d'étiquettes LLM et testé 2 361 hypothèses afin de mesurer l'impact des choix du chercheur sur les conclusions statistiques. Les résultats ont montré que les modèles de pointe et les modèles linguistiques à petite échelle ont produit des conclusions erronées basées sur les données d'annotation LLM dans environ un tiers des hypothèses, tandis que les modèles à petite échelle ont produit environ la moitié des hypothèses. Des performances élevées aux tâches et des caractéristiques générales supérieures du modèle réduisent, sans toutefois les éliminer, le risque de piratage des LLM, et ce risque diminue à mesure que l'ampleur de l'effet augmente. De plus, nous démontrons que le piratage intentionnel des LLM peut être réalisé très simplement et que tout résultat peut être présenté comme statistiquement significatif avec seulement quelques LLM et quelques variations rapides. En conclusion, cela souligne l'importance de minimiser les erreurs dans la recherche en sciences sociales utilisant les LLM grâce à l'annotation humaine et à une sélection rigoureuse des modèles.